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内 容 简 介 


Python 是 由 Guido van Rossum 于 20 世纪 80 年 代 末 和 90 年 代 初 ,在 和 荷兰 国家 数学 和 计算 机 科学 研究 所 
设计 出 来 的 。 它 是 一 种 面 同 对 象 的 、 用 途 非 常 广泛 的 编程 语言 ， 具 有 非常 清晰 的 语法 特点 ， 适 用 于 多 种 操 


作 系 统 。 目 前 Python 在 国际 上 非常 流行 ， 正 在 得 到 越 来 越 多 的 应 用 。 


Python 可 以 完成 许多 任务 ， 功 能 非常 强大 ， 其 利用 Pandas 处 理 大 数据 的 过 程 ， 由 于 Pandas 库 的 使 用 能 
够 很 好 地 展现 数据 结构 ， 成 为 近来 Python 项 目 中 经 各 使 用 的 热门 技术 ,并且 R 和 Spark 对 Python 都 有 很 好 


的 调用 接口 ， 长 至 在 内存 使 用 方面 都 有 优化 。 


本 书 根 据 作 者 多 年 教学 经 验 编 写 ， 条 理 清楚 ， 内 容 深浅 适中 ， 尽 量 让 读者 从 实例 出 发 ， 结 合 课 后 练习 ， 
少 走 灾 路 。 本 书 涉 及 的 内 容 主 要 包括 Python 数据 类 型 与 运算 、 流 程控 制 及 函数 与 类 、Pandas 库 的 数据 人 处理 
与 分 析 等 。 在 本 书 的 最 后 ， 还 附带 了 一 些 文件 读 写 、 网 络 爬 虫 、 和 矩阵 计算 等 最 基本 的 内 容 。 


本 书 可 以 作为 本 科 生 、 研 究 生 以 及 科研 人 员 学 习 Python 的 基础 教材 。 
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在 写作 本 书 的 时 候 ， 国 内 大 多 数 参 考 书 还 是 Python 2.7 版 本 ， 为 了 给 在 校 大 学 生 开 设 
这 门 Python 诬 程 ， 我 们 选择 了 Python 3.x， 毕 竟 Python 3.x 才 是 未 来 。 与 其 让 学 生 们 从 
Python 2.7 开始 学 ， 还 不 如 直接 从 Python 3.x 上手， 以 掌握 更 加 完善 的 知识 。 

作者 通过 近 三 轮 的 教学 ， 对 Python 3.x 的 基础 知识 进行 了 筛选 和 总 络 ， 特 编写 此 书 ， 
希望 能 够 给 准备 使 用 Python 的 读者 提供 一 些 方便 。 

本 书 由 浅 入 深 ， 比 较 适 合 那些 从 未 接触 过 计算 机 语言 的 读者 。 每 章 配 有 大 量 的 示例 代 
码 ， 希 户 读 者 在 使 用 本 书 的 时 候 ， 能 够 尽 可 能 目 己 毅 代 码 ， 少 用 复制 粘贴 的 方法 ， 这 样 有 
利于 读者 尽快 进入 “角色 ”， 上 毕竟“ 拷贝 得 来 终 觉 浅 ”。 

本 书 的 前 3 章 是 Python 的 基础 知识 ; 第 4 章 是 利用 Pandas 库 对 数据 进行 处 理 、 分 析 
以 及 实现 数据 可 视 化 ， 在 第 5 章 还 列 出 了 Python 对 文件 的 读 取 、 存 储 方法 ， 对 网 络 礁 虫 、 
和 矩阵 运算 也 做 了 人 简单 的 介绍 。 

作者 在 编写 本 书 的 过 程 中 ， 得 到 了 Python 工程 师 齐 伟 的 帮助 。 在 开设 这 门 课 的 时 候 ， 
齐 伟 通 过 视频 的 形式 与 我 们 一 起 分 享 了 Python 开发 经 验 。 本 书 在 完稿 时 ， 得 到 了 研究 生产 
青 、 陈 文 华 、 马 秀 、 攀 宇 凯 和 卢 超 在 文字 校对 上 的 帮助 。 

最 后 感谢 广大 读者 选择 了 本 书 。 作 者 E-mail: yubg@nuc.edu.cn，QQ: 120487362。 欢 
迎 各 位 读者 批评 指正 。 
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Python 简介 


mm Python 数据 分 析 基 础 


Python 语言 是 一 种 简单 而 又 功能 强大 的 编程 语言 。 通 过 学 习 ， 你 会 发 现 ，Python 语言 
注重 的 是 如 何 解 决 问 题 ， 而 不 是 编程 语言 的 语法 和 结构 。 

Python 的 官方 介绍 是 : Python 是 一 种 简 早 易 学、 功能 强大 的 编程 语言 ， 它 有 稿 效率 有 的 
局 层 数 据 结构 ， 能 简单 而 有 效 地 实现 面 癌 对 象 编程 。 

Python 人 简 党 的 语法 和 对 动态 输入 的 文 持 ， 再 加 上 解释 性 语言 的 本 质 ， 使 得 它 在 大 多 数 
平台 上 的 许多 领域 中 都 是 一 个 理想 的 脚本 语言 ， 特 别 适 用 于 快速 的 应 用 程序 开发 。 不 需要 
任何 编程 基础 ， 完 全 可 以 从 等 开始 学 习 。 

入 注意 : Python 语言 的 创造 者 Guido van Rossum 是 根据 英国 广播 公司 的 节目 “蟒蛇 
飞行 马戏 ”来 命名 这 个 语言 的 ，Python 的 英文 本 意 是 “ 巨 蛇 ， 大 蟒 ”。 


Python 确实 是 一 种 十 分 精彩 且 强 大 的 语言 。 它 合理 地 结合 了 高 性 能 及 使 得 编写 程序 简 
单 有 趣 的 特色 。 

Python 的 缺 点 : 前 后 版 本 不 兼容 。 这 确实 是 让 新 、 老 学习 人 员 感 到 有 点 头痛 的 事情 。 

因为 前 后 版 本 不 兼容 ， 导 致 许多 人 为 选择 Python 2.x 还 是 Python 3.x 发 悉 。 本 书 推 荐 
使 用 Python 3.x。 

的 硝 ， 当 前 还 有 相当 多 的 程序 员 在 使 用 Python 2.7， 不 过 Python 3.x 可 和 是 Python 发 展 
的 未 来 ， 这 就 像 Windows 7 和 Windows 10 谁 是 未 来 一 样 。 

我 们 上 发现 ，Python 3.x 中 的 新 特性 确实 很 妙 ， 很 值得 进行 深入 学 习 。 

其 实 ， 我 们 也 不 用 担心 ， 如 果 了 解 了 Python 3.x， 则 Python 2.7 的 代码 阅读 起 来 是 根本 
不 成 问题 的 。 


1.1 安装 Python 


Windows 用 户 可 以 访问 https://python.org/download， 从 网 站 中 下 载 最 新 的 版 本 ， 大 小 
约 为 27.4MB。 与 其 他 大 多 数 语 言 相 比 ，Python 的 安装 包 算 是 十 分 紧凑 的 ， 其 安装 过 程 与 
其 他 Windows 软件 类 似 。 

在 本 书 即 将 完成 的 时 候 ， 我 们 使 用 的 是 最 新 版 Python 3.5.1， 有 所 使 用 的 计算 机 系统 为 
Windows 10。 

安装 Python 很 简单 ， 双 击 python-3.5.1.exe， 勾 选 Add Python 3.5 to PATH， 再 单 击 
Install Now 即 可 ， 如 图 1-1 所 示 ， 其 下 方 已 经 显示 了 安装 路 径 。 安 装 完毕 后 ， 会 显示 安装 
成 功 界 面 ， 最 后 单 击 Close 按钮 就 可 以 使 用 了 。 

安 站 完 成 后 ， 在 “开始 ” 朋 单 中 会 显示 安装 目录 ， 如 图 1-2 所 示 。 当 我 们 要 编写 代码 
时 ， 直 接 选 择 IDLE 命令 即 可 。 


一 python 3.5.1 (32-bi Setup 


Install Python 3.5.1 (32-bit) 


Select Install Now to Install Python with default settings, or choose 
Customize to enable or disable features. 


\ 加 Install Now 
CN\Users\yubg\AppData\Local\Programs\Pythom\Python35-32 
| Includes IDLE, pip and documentation 


Creates shortcuts and file associations 


— » Customize installation 


Choose location and features 


python 


for Install launcher for all users (recommended) 


windows 


5 引 powerpoint 2016 

Pa publisher 2016 

图 ”python 3.5 加 
向 IDLE (Python 3.5.， ”最 后 法 加 
各 ”Python 3.5 (32-bitb 最近 添 加 
| python 3.5 Manu..， 最 近 添加 


EE, Python 3.5 Modul..。 最 省 滩 加 


1-2 “开始 ”菜单 中 的 安装 目录 


如 果 是 在 Windows 7 系统 中 ， 安 闫 完毕 后 ， 还 要 进行 环境 的 配置 (以 下 是 在 Windows 7 
系统 上 安装 的 Python 3.3 版 本 ，3.5 版 本 的 安装 方法 大 致 相同 )， 有 具体 方法 如 下 。 

打开 “控制 面板 ”窗口 ， 单 击 “ 和 系统” 图标， 打开“ 系统 ”窗口 ， 在 左 侧 单 击 “ 高 级 
系统 设置 ”图 标 ， 将 弹出 “系统 属性 ”对 话 框 。 在 该 对 话 框 中 单 击 “ 环 境 变量 ”按钮 ， 将 
弹出 “环境 变量 ”对 话 框 ， 在 “系统 变量 ”列表 框 中 选择 Path 选项 ， 然 后 单 击 “ 编 辑 ” 按 
钮 ， 在 弹出 的 “编辑 系统 变量 ”对 话 框 中 编辑 Path 变量 。 把 “;C:\Python33” 添 加 到 变量 
值 的 末尾 ， 如 图 1-3 所 示 。 当 然 ， 前 提 是 Python 已 经 正确 地 安装 在 C 盘 的 根 目 录 下 ， 即 C 
盘 中 已 经 存在 Python33 文件 夹 。 

然后 在 DOS Shell 命令 提示 符 下 输入 “python”， 如 果 看 到 如 图 1-4 所 示 的 信息 ， 就 说 
明 Python 已 经 安 逆 成 功 了 。 
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Ki 加 | .四 ， 护 制 徊 标 ， 所 有 控 淹 回旋 页 ， 司 


控制 面板 主页 系统 层 性 
号 | 设 香 各 理 器 计算 机 名 | 硬件 “| 高 级 WindawaPowerSheLlwwl DA:C: \Python3dl 
| 艺 远 任 设置 要 进行 大 冯 针 更改 ， 症 呈 
夯 性 能 
ee 视觉 效果 ， 处 理 器 计划 
i 


从 


人 Windows_HT 
fs。 用户 本 着 立 作 
二 人 和 寻 录 坪 尖 in CON:. EXE:. BAT: . CMD: MEs: 
多 登录 有 关 的 点 面 人吉 Sn 
局 荔 和 地 障 藉 了 
系统 自动 ， 系统 共 由 相克 
Nl 
谋 二 间 ) 
环境 概 举 印 | 
FE 
号 诗 参 局 [确定 -| 忆 取消 | | 应 用 必 
各 御 中 心 mr er - 喝 更 枚 设置 
计算 机 地名; jason-pCc 


Windows Update 


ET 1 一 | 


1-3 系统 变量 的 设置 


于 一 = 加 
on 命令 所 未 符 

Microsoft Windows [hh 本 6.3.96686] I 

cc 2813 Microsoft Corporation。 悍 留 所 有 权利 。 


GG “sers™ ubg2cd .. 


i | 


python 3.3.5 Cu3.3.5:62cf4e77Ff785, Mar 9 2014, 10:35:05> [MSC v.1689 64 bit <AM 
| 

D642] on win3z 

Type "help'', copyright’', credits'' oF "license” for more information. 
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1-4 在 命令 提示 符 下 测试 Python 安装 


图 1-4 中 显示 的 是 在 C 盘 下 已 安装 Python， 目 录 为 C:\Python33。 如 果 与 此 不 一 致 ， 需 
要 先 下 载 并 安装 Python。 

后 面 还 会 介绍 Python 的 其 他 安装 方法 ， 目 的 是 为 了 避免 安装 复 江 的 Python 数据 包 ， 
如 pandas、numpy 等 。 

关于 Python 下 载 和 学 习 的 网 站 很 多 ， 例 如 : 

® http://freelycode.com/fcode/downloadinstall?listall=True 

@ www.freelycode.com 

和 http://pythontutor.com/ 

综 上 所 述 ， 对 于 Windows 系统 ， 要 安装 Python， 只 须 下 载 安装 程序 ， 然 后 双击 它 就 可 
以 了 ， 是 非常 简单 的 。 从 现在 起 ， 我 们 假设 已 经 在 计算 机 系统 里 安 沪 了 Python 3.5。 


打开 Python 的 IDLE， 启 动 Python 解释 器 。 
我 们 在 >>> 提 示 符 后 面 输入 print('Hello World*)， 然 后 按 Enter 键 ， 应 该 可 以 看 到 输出 
了 Hello World， 如 图 1-5 所 示 。 


E@ python 3.5.1 Shell 口 x 


Fle Edit Shell Debug Qptions Window Help 
Python 3.5,.1 (twv3,.65,.1:37a01Tcee5969, Dec 6 2015, 01:38:48) [MSC wv, 1900 32 bit (In 2 
tel)] on win32 

Type ”copYright”，“credits”or "license()” for more information. 

>»»» print( Hello World ) 

Halls Warld 


> 
图 1-5 IDLE 表面 
和 注意 ; ”此 处 的 >>> 为 系统 自动 显示 的 提示 符 ， 不 需要 人 为 地 输入 ， 而 程序 中 所 涉及 


的 括号 ()、3 引 号 等， 都 需要 在 英文 半角 状态 下 输入 . 
1.2 Python 2 和 Python 3 的 区 别 


本 万 我 们 讲解 Python 2 和 Python 3 的 主要 区 别 。 

1. 性 能 

Python 3.0 运行 PyStone Benchmark 的 速度 比 Python 2.5 慢 30%。Guido 认为 Python 
3.0 有 极 大 的 优化 空间 ， 在 字符 串 和 整 型 操作 上 可 以 取得 很 好 的 优化 结果 。 目 前 Python 3.5 
版 本 的 性 能 已 经 优 于 版 本 2.7。 

2. 编码 

Python 3.x 源码 文件 默认 使 用 utf-8 编码 ， 这 如 使 得 以 下 代码 是 合法 的 ， 但 在 Python 
2.x 中 是 不 可 思议 的 事情 ， 对 于 中 国人 来 说 是 个 “福音 ”: 


>>> 中 国 = 'china' 
>>> print (中 国 ) 
china 


> 


3. 语法 


(1) 去 除了 不 等 号 <>， 全 部 改 用 !=。 
(2) 关键 词 加 入 as 和 with， 还 有 True、False、None。 
(3) 整 型 除法 返回 浮 点 数 ， 要 得 到 整 型 结果 ， 须 使 用 //。 
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(4) 去 除 print 语句 ， 加 入 print0 函 数 实现 相同 的 功能 。 同 样 地 ， 还 有 exec 语句 ， 已 


经 改 为 exec(0) 函 数 。 
例如 : 
print “The answer is", 2*2 # 2. 广 
print{("The answer TS 2*2) # 外 .x 


(5) 改变 了 顺序 操作 符 的 行为 ， 例 如 x<y， 当 x 和 yy 关 型 不 匹配 时 抛 出 TypeError， 而 


不 是 返回 随机 的 bool 值 。 


(6) 输入 函数 有 改变 ， 删 除了 raw input， 用 input 代 蔡 。 
读 取 键盘 输入 的 方法 如 下 : 


guess = int (raw input('Enter an integer : ')) 六 之 =X 


guess = int (input ('Enter an integer : ")) -he 
(7) 删除 了 cmpO 比 较 函 数 。 
4. 数据 类 型 


(1) Python 3.x 去 除了 long 类 型 ， 现 在 只 有 一 种 整 型 int， 但 它 的 行为 就 像 2.x 版 


本 的 long。 


(2) dict 的 .keysO、.items 和 .values0 方 法 返回 迭代 占 ， 而 先前 的 iterkeysO 等 图 数 都 被 


废弃 。 同 时 去 掉 的 还 有 dict.has keyO0， 用 in 替代 。 


5. 异常 

(1) 所 有 异常 都 从 BaseException 继承 ， 并 删除 了 StandardError。 

(2) 去 除了 弄 第 类 的 友 列 行为 和 .message 属性 。 

(3) 用 raise Exception(args) 代 蔡 raise Exception, args 语法 。 

(4) 捕获 异常 的 语法 改变 ， 引 入 了 as 关键 字 来 标识 异常 实例 。 在 Python 2.5 中 : 


Er 
raise NotImplementedError!('Error') 
except NotImplementedError, error: 


print error.message 


Error 


全 之 全 


在 Python 3.0 中 : 


>>> try: 
ralse NotImpljementedError('Error'") 
except NotlImplementedError as error: # 注 意 这 里 的 as 
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print (str (error)) 
LIrLoOr 


> 


6. 模块 变动 


(1) 移 除 了 cPickle 模块 ， 使 用 pickle 模块 代替 。 

(2) 移 际 了 imageop 模块 。 

(3) 移 除 了 audiodev、bastion、bsddb185、exceptions、1linuxaudiodev、md5s、mimify、 
MimeWriter、 popen2、rexec、sets、sha、stringold、strop、sunaudiodev、timing 和 xmllib 
模块 。 

(4) 移 除 了 bsddb 模块 (单独 发 布 ， 可 以 从 http://www.jcea.es/programacion/pybsddb.htm 
犹 取 )。 

(5) 移 除 了 new 模块 。 

(6) os.tmpnam() 和 os.tmpfileO 函 数 和 被 移动 到 tmpfile 模块 下 。 


7. 其 他 
(1) xrangeO 改 名 为 fange0， 要 想 使 用 range0 获 得 一 个 list， 必 须 显 式 调 用 : 


>>> list (range (10)) 
[0 ly Zr 3r 41 or er 1 8, 3) 
>>> 


(2) bytes 对 象 不 能 hash， 也 不 支持 b.lowerO0、Pb.stripO0 和 b.split0 方 法 ， 但 对 于 后 两 
者 ， 可 以 使 用 b.strip(benvtxr \f) 和 b.split(b“”) 来 达到 相同 的 目的 。 

(3) zip0、mapO 和 filter0O 都 返回 迭代 器 。 

(4) file 类 被 废弃 ， 在 Python 2.5 中 : 

>>> file 


<type ‘file'> 
>>> 


在 Python 3.x 中 : 


>>> file 

Traceback (most recent call last): 

File "<pyshelll20>"™", line 1l1, jin <module> 
file 

NameError: name ‘file' is not defined 


>>> 
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本 章 小 续 
本 章 主 要 学 习 了 Python 的 安装 和 IDLE 的 局 用 ， 以 及 了 解 了 Python 2.7 和 Python 3.x 
之 闻 的 差 元 。 
练 3 


(1) 请 将 IDLE 的 Shell 界面 字体 调试 成 18 号 等 线 light 字体 。 
(2) 在 Shell 编辑 器 的 >>> 后 输入 helpO0， 查 看 本 机 安装 的 Python 版 本 信息 。 
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我 们 先 了 解 Python 的 几 个 语法 常识 。 

1. 代码 注释 方法 

(1) 在 一 行 中 ，“# ”后 的 语句 不 再 执行 ， 而 表示 被 注释 。 

(2) 如 果 要 进行 大 段 的 注释 ， 可 以 使 用 三 个 单 引号 CO”) 或 者 双 引 号 (”””) 将 注释 内 容 包 
恩 。 单 引号 和 双 引 号 在 使 用 上 没有 本 质 的 天 别 。 

【 例 2-1】 三 个 双 引 号 注释 段落 : 


# -—*- coding: utf-8 一 * 一 


Created on Sun Mar 13 21:20:06 2016 
Qauthor: yubg 


Lo= E12.3] 
for i in lis:  # 半 角 状 态 骨 号 不 能 少 ， 下 一 行 注意 缩 进 
i+=1 


print (i) 

本 例 不 需要 上 机 操作 ， 仅 为 展示 用 法 。 

2. 用 缩 进来 表示 分 层 

Python 不 像 C 语言 那样 用 屿 来 表示 语句 块 ， 而 是 通过 让 代码 缩 进 4 个 空格 来 表示 分 
层 ， 当 然 也 可 以 使 用 Tab 键 ， 但 不 要 混合 使 用 Tab 键 和 空格 来 进行 缩 进 ， 人 否则 会 使 程序 在 
路 平台 时 不 能 正 第 工作 ， 官 方 推荐 的 做 尘 是 使 用 四 个 空格 。 

一 般 来 说 ， 行 尾 遇 到 “:” 就 表示 下 一 行 缩 进 的 开始 ， 如 例 2-1 中 的 “for i in lis” 行 尾 
有 冒号 ， 下 一 行 的 “i+=1” 就 需要 缩 进 四 个 空格 。 

3. 语句 断 行 

一 般 来 说 ，Python 中 的 一 条 语句 占 一 行 ， 在 每 条 语句 的 结尾 处 不 需要 使 用 分 号 (;))。 但 
在 Python 中 也 可 以 使 用 分 号 ， 表 示 将 两 条 简单 语句 写 在 一 行 。 但 如 果 一 条 语句 较 长 ， 要 分 
几 行 来 号， 可 以 使 用 “\ ”来 进行 换行 。 分 号 还 有 个 作用 ， 使 用 在 一 行 语 句 的 末尾 ， 表 示 对 
本 行 语句 的 结果 不 打印 和 输出。 一 般 地 ， 系 统 能 够 目 动 识别 换行 ， 如 在 一 对 括号 中 间或 三 引 
号 之 则 均 可 换行 。 例 如 下 面 代 码 中 的 第 三 行 较 长 ， 夺 要 对 其 分 行 ， 则 必须 在 括号 内 进行 ( 包 
括 圆 插 号 、 方 括号 和 人 花 括号 ): 

from pandas import DataFrame  # 导 入 模块 中 的 函数 ， 后 面 再 讲 


from pandas import Series 
df = DataFrame ({'age':Series{([26,85,64]})}, 'name':Series(['Ben’', 'Joh','Jef'])}) 
print (df) 
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分 行 后 的 第 二 行 一 般 空 四 个 空格 ， 在 3.5 版 本 中 已 经 优化 ， 可 以 不 衬 四 个 空格 ， 但 是 
在 较 低 的 3.x 版 本 中 不 空 四 个 空格 会 报错 。 


from pandas import DataFrame 

from pandas import Series 

df = DataFrame ({'age':Series ([26,85,64]), # 些 语句 分 成 了 两 行 
'name':;Series(['Ben','Joh','Jef"])}) 

print (df) 


4. print() 的 作用 
print0 会 在 输出 窗口 中 有 显示 一 些 文 本 或 结果 ， 便 于 验证 和 显示 数据 。 
5. 使 用 转 义 符 


如 宁 需 要 在 一 个 字符 串 中 磐 入 一 个 引号 ， 该 如何 操作 ? 

有 两 种 方法 : 可 以 在 引号 前 加 反 和 斜 本 人 ， 或 者 用 不 同 的 引 写 包围 这 个 引号 。 
例如 : 

>>>sl='I\'am a boy. ' # 可 以 使 用 转 义 符 \ 

>>>print(sil) 


IT'"'am a bov. 


>>>s2="I'am a boy. " # 也 可 以 用 不 同 的 引号 包围 起 来 ， 此 处 用 双 引 号 是 为 了 区 分 单 引 号 
>>>print(s2) 
an a De 


> 


转 义 符 详 见 本 章 2.2.5 小 节 的 内 容 。 
2.1 数据 类 型 


Python 总 共有 6 种 数据 类 型 ， 分 别 是 数字 型 (Numbers)、 字 人 符 串 型 (String)、 列 表 型 
(List)、 元 组 型 (Tuple)、 集 合 型 (Sets) 和 字典 型 (Dictionaries)。 

数字 型 义 可 划分 为 整数 型 (int)、 浮 点 型 (float)、 布 尔 型 (boo]D) 和 复数 型 (complex)。 

在 Python 中 有 4 种 类 型 的 数 一 一 整数 、 长 整数 、 汉 后 数 和 复数 。 

例如 ，2 是 一 个 整数 的 例子 。 

长 整数 不 过 是 大 一 些 的 整数 。 

3.23 和 52.3E-4 是 浮 点 数 的 例子 ，E 标记 表示 10 的 寡 。52.3E-4 表示 52.3x10” 。 

(-5+4j) 和 (2.3-4.6j) 表 示 的 是 复数 。 


.011. 


mw 所 四 Python 数据 分 析 基础 


查看 数据 类 型 的 方法 是 : 
>>> tvype (变量 名 ) 


例如 : 


>>> a = 1 #int 

>>> type (a) 

<class "1Lnt 7 > 

>>> b = True #boolean 
>>> tvype (b) 

<class ‘bool'> 

>>> CcC = 4+3]j #complex 
>>> type (l(c) 

<Class ‘complex'> 

>>> d = 3.14 #1loat 
>>> type (d) 

<CLaSSs tlLoat > 

>>> 


2.2 


2.2.1 算数 运算 和 付 


算数 运算 符 如 表 2-1 所 示 。 


运算 从 与 功能 命令 


表 2-1 算术 运算 符 


操作 符 例子 (a=10.b=20) 


加 法 ， 两 个 对 象 相 加 


a+b= 30 


减法 ， 一 个 数 减 去 男 一 个 数 a-b=-10 
乘法 ， 两 数 相 乘 或 返回 一 个 被 重复 若干 次 的 字符 串 a*b=200 


除法 ，b 除 以 a 


取 模 ， 返 回 除 法 的 余数 b%a=0 


取 整 除 ， 人 返回 商 的 整数 部 分 9//2 =4， 而 9.0//2.0 =4.0 


2.2.2 比较 运算 符 


比较 运算 符 如 表 2-2 所 示 。 


b/a=2 


a**b=]100000000000000000000， 
10 的 20 次 窜 


表 2-2 比较 运算 符 
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运算 全 例子 (a=10,b=20) 


检查 两 个 操作 数 的 值 是 否 相 等 ， 夺 相等 则 条 件 变 为 真 


(a == 了 b) 不 为 true 


检查 两 个 操作 数 的 值 是 否 相 等 ， 若 不 相等 则 条 件 变 为 真 (a != b) 为 true 
检查 左 操作 数 的 值 是 否 大 于 右 操 作 数 的 值 ， 若 大 于 则 条 件 为 真 (a > b) 不 为 true 
检查 左 操 作 数 的 值 是 否 小 于 右 操 作 数 的 值 ， 者 小 于 则 条 件 为 真 (a 二 b) 为 true 


检查 左 操作 数 的 值 是 否 大 于 或 等 于 右 操作 数 的 值 ， 知 大 于 等 于 则 


条 件 为 真 


检查 左 操 作 数 的 值 是 否 小 于 或 等 于 石 操 作 数 的 值 ， 夺 小 于 等 于 则 


条 件 为 真 


2.2.3 ”赋值 运算 稚 


赋值 运算 符 如 表 2-3 所 示 。 
表 2-3 ”赋值 运算 符 
运算 符 撕 述 
= 简单 的 赋值 运算 符 ， 赋 值 从 右 侧 操作 数 到 左 侧 操作 数 
了 加 法 赋值 运算 符 ， 左 操作 数 和 右 操作 数 和 的 结果 赋 给 
左 操作 数 
碱 赋 值 运算 符 ， 左 操作 数 减 去 右 操 作 数 ， 并 将 结果 赋 
给 左 操作 数 
， 乘法 赋值 运算 符 ， 左 操作 数 与 右 操作 数 的 乘积 赋 给 左 
_ 操作 数 
除法 赋值 运算 符 ， 左 操作 数 除 以 右 操作 数 的 结果 赋 给 
左 操作 数 
本 模 赋值 运算 符 ， 左 操作 数 与 右 操作 数 模 的 结果 赋 给 左 
z 操作 数 
本 指 赋值 运算 符 ， 左 操作 数 的 右 操作 数 指数 之 值 赋 给 左 
操作 数 
网 地 板 除 ， 左 操作 数 地 板 除 右 操作 数 ， 将 结果 赋 给 左 操 


作 数 
【 例 2-2】 各 类 运算 示例 : 


>>> print (1+9) # 加 法 
10 
>>> print (1.3-4) # 减法 


(a 二 = 了 b) 不 为 true 


(a <=b) 为 true 


示例 
c=a+b 相当 于 将 a+b 赋值 给 ec 


c+=a 相当 于 c=c+a 


c -= a 相当 于 c=c-a 


c * 一 & 相当 于 c 一 c*&a 


c/=a 相当 于 c=c/a 


c% 一 8 相当 于 c=c%a 


c ** 二 a 相当 了 于 c=c**a 


c//=a 相当 于 c=ce//a 
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一直 

>>> print (3*5) # 乘法 

15 

So DrinktA oo/13o) # 除法 

3 

>>> print (3**2) # 乘 方 

9 

>>> print (10%3) # 求 余数 

1 

>>> print (5==6) # 相等 

False 

>>> print (8.0!=8.0) # 不 相等 

False 

SS rn =a # < 小 于 ; <= 小 于 等 于 
ESE 

>>> print (4>5, 4>=0) > 大 于 7 = 大 于 等 于 
False True 

= ol 41D ioe 1 3 90] “Pm 
True 


>>> print (True anaq True, True and False) # and， 两 者 都 为 真 才 是 真 
True False 

SS Fint (Tie Or palse) # or，“ 或 ”运算 ， 其 中 之 一 为 真 即 为 真 
True 

> Print (not TrEuey FORE mH hm 

False 

>>> divmod {5,2) # 表示 5 除 以 2， 返回 了 了 商 和 余数 
(2, 1) 

>>> 5/2 

9 

>>>a = 1.5 

>>>bDb = 1 

>>>a 十 = b 

>>>print (a) 

二 

>>> 


说 明 : 在 Python 3.5 之 前 的 厂 本 中 ， 当 两 个 整数 相 除 时 ， 其 结 和 采取 商 的 整数 部 分 (不 是 


四 舍 五 入 ); 当 除 数 和 被 除数 之 一 或 两 者 都 是 浮 点 数 时 ， 其 结果 才 是 浮上 点数 。 如 计算 5/2 
时 ， 得 到 的 结果 不 是 2.5， 而 是 2。 但 在 Python 3.5 版 本 中 已 经 做 了 优化 ， 其 结果 显示 为 
2.5。 若 是 3.5 之 前 的 版 本 ， 也 可 以 用 除法 模块 future 中 的 division， 如 下 所 示 : 


>>> [rom future import division 
> Di/2 
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>>> FoUuna (1 .234567 2) 
二 
>>> 


但 是 也 有 例外 : 


>>> round (2.235,2) 
省 这 


结果 为 什么 不 是 2.24? 因为 这 是 由 浮 点 数 引 起 的 精确 度 问 题 ， 后 续 章 节 将 详细 介绍 
decimal 模块 对 此 类 问题 的 处 理 方法 (from decimal import Decimal): 


>>> from decimal import Decimal 

>>> from decimal import localcontext 
>>> a = Decimal('l1.3"') 

>>> b = Decimal (1l1.7') 

>>> Printia / bb) 

0 .T764717058823529411764705882353 


>>> with localcontext () as ctx: 
ctx.prec = 3 
print{a / b) 


.1763 

>>> 

思考 : 为 什么 >>>print('IT love i-nuc.com ”* 5) 可 以 正常 执行 ， 而 >>>print(‘I love i- 
nuc.com ’ 十 $) 却 报销 ? 

运算 类 型 不 一 致 。 在 Python 中 不 能 把 两 个 完全 不 同 的 东西 加 在 一 起 ， 比 如 说 数字 和 文 
本 。 正 是 这 个 原因 ，Pprint('I love i-nuc.com“，+ $) 才 会 报错 。 这 就 像 在 说 “我 的 体重 67 公斤 
加 上 我 的 身高 170cm 是 多 少 ” 一 样 没 有 多 大 意义 ! 不 过 ， 文 本 乘 以 一 个 整数 来 翻 倍 就 具有 
一 定 的 意义 了 ，Pprint('I love i-nuc.com " * 5) 意 思 就 是 将 “love i-nuc.com ”这 个 字符 串 接 连 输 
Hs 


2.2.4 常量 与 变量 


弟 量 有 数值 、 字 符 、 人 过 辑 真 假 ， 如 12、yy、“12”、true、false。 
变量 是 可 以 给 它 赋值 的 量 ， 如 a=3。 
变量 只 能 由 数字 、 字 母 和 下 划 线 构成 ， 但 不 能 以 数字 开 涉 ， 而 且 变 量 区 分 大 小 写 ; 以 
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下 划 线 开头 的 变量 有 特殊 合 义 ; 变量 名 不 能 含有 空格 和 标点 从 号 ， 如 括号 、 引 号 、 逗 号 、 
斜 线 、 反 和 斜 线 、 冒 号 、 句 号 和 问号 ; 在 Python 3.x 中 ， 变 量 也 可 以 是 中 文 。 例 如 : 


>>> 中 国 = "I love YOU” 
二 
>>> Ll1St = [5S5S,6,7] 

>>> list 1 

史 E23 

>>> List 

Ee | 

>>> 


2.2.5 ”字符 上 串 


字符 串 是 字符 的 序列 。 字 符 串 基本 上 就 是 一 组 单词 。 字 符 串 需 用 单 引 号 (“*) 或 者 双 引 号 
(“”) 括 起 来 。 

(1) 使 用 单 引 号 C*): 可 以 用 单 引号 指示 字符 串 ， 就 如 同 ‘Quote me on this* 这 样 。 所 有 
的 空 日 ， 即 空格 和 制 表 符 剖 上 照 原样 保留 。 

(2) 使 用 双 引 号 (”): 双 引 号 与 单 引 号 中 的 字符 串 在 使 用 上 完全 相同 ， 例 如 “What's 
your name?”。 

(3) 使 用 三 引号 C”? 或 ”””)): 利用 三 引号 ， 可 以 指示 一 个 多 行 的 字符 串 。 可 以 在 三 引 
号 中 自由 地 使 用 单 引 号 和 双 引 号 。 

(4) 转 义 符 : 假设 想 要 在 一 个 字符 串 中 包含 一 个 单 引号 ()， 例 如 字符 串 What’s your 
name2， 就 不 能 用 "What's your name?’ 来 表示 ， 因 为 这 里 有 三 个 单 引 和 写 ，Python 不 知 从 何 处 
开始 ， 何 处 结束 。 这 时 ， 可 以 通过 转 义 从 来 完成 这 个 任务 ， 用 \* 来 表示 早 引 号 一 一 注意 这 
里 的 反 和 斜 杜 。 可 以 把 字符 串 表 示 为 “What\’s your name?’。 义 如 : 

>>> 3 = 'Yes,he doesn\'t' 

SS Orini(la Tpetsy Iantayy #len () 函数 用 于 查看 s 的 长 度 

Yes,he doesn't <class 'str'> 14 

还 可 以 用 夯 一 个 表示 方法 ， 即 用 双 引 号 ， 以 便 与 字符 串 内 的 单 引 号 区 分 开 ， 即 “What's 
your name?”。 

类 似 地 ， 要 在 双 引 号 字符 串 中 使 用 双 引 号 时 ， 可 以 傅 助 于 转 义 符 。 态 外 ， 也 可 以 用 转 
义 从 “WW” 来 指示 反 斜 杠 “\”。 

值得 注意 的 是 ， 在 一 个 字符 串 中 ， 行 末 单 独 一 个 反 斜 杠 表示 字符 串 在 下 一 行 继 续 ， 而 
不 是 开始 一 个 新 的 行 。 例 如 : 
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"This is the first sentence." 


This 1i3s8 七 he second sentence." 


等 件 于 : 
"This is 七 he first sentence. This is 七 he second sentence.”" 


枝 义 字符 的 种 类 如 表 2-4 所 不 。 


表 2-4 转 义 字符 及 其 描述 


转 义 字符 描述 
\( 在 行 尾 时 ) 续 行 付 
\ 友和 斜 杠 符号 
\ 单 引 号 
- 双 引 气 
\a 虽 铃 
\b 退 格 (BackSpace) 
Me 转 义 
\000 Ee 
\n 换行 
\v 纵 回 制 表 符 
\t 横 同 制 表 符 
Yr 回 车 
\f 换 页 
\oyy 八进制 数 yy 代表 的 字符 ， 例 如 ，\o12 代表 换行 
\xyy 十 进 制 数 yy 代表 的 字符 ， 例 如 ，\x0a 代表 换行 
\other 其 他 的 字符 以 普通 格式 和 输出 


(5) 目 然 字符 串 : 如 果 想 要 指示 某 些 不 需要 如 转 义 得 那样 特别 处 理 的 字符 串 ， 则 需要 


指定 一 个 自然 字符 串 。 自 然 字 符 串 通过 在 字符 串 前 添加 前 级 r 或 R 来 指定 。 
例如 a=r“Newlines are indicated by \n”， 读 者 可 自行 测试 。 
又 如 : 


>>> print('C:\some\name') # \n 表示 成 了 换行 符 
C:\some 

ame 

>>> print(r'C: \some\name') 

C:\some\name 


六 六 六 


(6) Unicode 字符 串 : Unicode 是 书写 国际 文本 的 标准 方法 。 如 果 想 要 用 其 他 语言 ， 如 
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北 印 度 语 或 阿拉 们 语 写 文本 ， 那 么 就 需要 有 一 个 支持 Unicode 的 编辑 器 。 类 似 地 ，Python 
允许 处 理 Unicode 文本 只 需要 在 字符 串 前 加 上 前 绥 u 或 U。 例 如 ，ueThis is a Unicode 
String. 。 

(7) 字符 串 是 不 可 变 的 : 这 意味 着 一 旦 创造 了 一 个 字符 串 ， 就 不 能 再 改变 它 。 虽 然 这 
看 起 来 像 是 一 件 坏事 ， 但 实际 上 它 不 是 。 我 们 将 会 在 后 面 的 程序 中 看 到 为 什么 说 它 不 是 一 
个 缺点 。 

字符 串 可 以 通过 “+” 运 算 符 串 连 在 一 起 ， 或 者 用 “*” 运 算 符 重复 。 例 如 : 


a ne 


string mymymy 


> 这 这 


2.2.6 ”字符 串 索 引 与 切片 


定义 子 从 串 变 量 并 赋值 的 例子 如 下 : 


>>> str = "Hello MY friend™" 
字符 串 是 一 个 整体 。 如 果 想 直接 修改 字符 串 ， 是 不 可 能 做 到 的 ， 但 我 们 能 够 读 出 字符 
串 中 的 茶 一 部 分 。 


1. 字符 串 的 索引 

给 出 一 个 字符 串 ， 可 输出 其 任意 一 个 字符 。Python 中 的 字符 串 有 两 种 索引 方式 : 第 一 
种 是 从 左 往 右 ， 从 0 开始 依次 增加 ; 第 三 种 是 从 右 往 左 ， 从 -1 开始 依次 减少 。 例 如 : 

>>> word = Python' 

>>> print (word[0]) 

P 

>>> print (word[-1], wordl[-6]) 

I 


2. 字符 串 的 切片 

切片 (也 叫 分 片 ) 就 是 从 给 定 的 字符 串 中 分 离 出 部 分 内 容 。 

(1) Python 中 用 冒号 分 隔 两 个 索引 ， 形 式 为 “变量 [ 头 下 标 : 尾 下 标 ]”， 截 取 的 范围 
左 闭 右 开 ， 即 不 包含 尾 下 标的 字符 ， 并 且 两 个 索引 都 可 以 省 略 。 例 如 : 


>>> str = "Hello My friend" 


PU 


| 
全 二】 上 
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=>” Dinblsteel Tl 
Hello My 

>> Drint(lstr[Ss:]} 
My friend 

> Dint(tstell) 
Hello My friend 
>>> 


(2) 切片 的 扩展 形式 为 “str[I:J:K]”， 从 I 到 J-1， 每 隔 K 个 元 素 索 引 一 次 ， 如 果 K 
为 人 负数， 就 是 按 从 右 往 左 索 引 。 例 如 : 


>>> str = "Hello My friend" 

>>> Printtstr[lz2: 17:2]) 

loM 

-> rinteetelaS rT Ly 

llo M 

>>> 

(3) 子 符 串 包含 判断 操作 和 从 为 in，not in。 例 如 : 
>>> str = "Hello My friend"™ 


>>> "He” in str 

True 

>>> "she™ not in str 

lrue 

SE I) # 字 符 串 模块 提供 的 查找 方法 
4 

> 之 


(4) ord 函数 将 字符 转化 为 对 应 的 ASCII 码 值 ， 而 chr 函数 将 数字 转化 为 字符 。 例 如 : 


> Drint(terdi a yy 
97 
人 


>>> 

(5) ”处理 字 人 和 付 串 的 内 置 函 数 : 

len (str) # 串 长 度 

max('abcxyz') # 寻 找 字 符 串 中 最 大 的 字符 
min('abcxyz') # 村 找 字 符 串 中 最 小 的 字符 

(6) string 的 转换 : 

Tr te, # 恋 成 整 型 ， 如 int ("12") 的 结果 为 12， 是 数值 型 
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string 模块 还 提供 了 很 多 方法 ， 例 如 : 


nN Nn Dn Wn 


.find(substring, [start [,end]]) # 可 指 范 围 查找 子 串 ， 返 回 索 引 值 ， 否 则 返回 -1 
.rfind(substring, [start [,end]]) # 反 同 查 找 

.index (substring, [start [,end]]) # 同 于 na， 只 是 找 不 到 会 产生 ValueError 异常 
mdrvlaunatrind [otart endllytelEsenl 人 村 

.Count (substring, [start [,end]]) # 返 回 找到 子 串 的 个 数 

.Capitalize() # 首 字母 大 写 

.lower{) # 转 小 写 

. Upper () # 转 大 写 

.Swapcase () # 大 小 写 互 换 

.SPlit()  # 将 string 转 1ist， 默 认 以 空格 切 分 ， 也 可 以 指定 字符 切 分 


2.2.7 ”输入 和 输出 


1 . 


print 


print 是 一 个 贡 用 函数 ， 其 功能 就 是 输出 括号 中 的 字符 串 ( 在 Python 2.x 中 ，print 格式 
写成 print ‘Hello World!’)。 
print 可 以 有 多 个 和 输出， 以 逗号 分 隔 。 例 如 : 


>>> a=10 


>>> print (a,type (a)) 
10 <class "int'»> 


> 之 之 


奇 要 将 多 个 结果 打印 在 一 行 ， 并 以 逗号 分 隔 ， 可 以 在 print 中 添加 end=“,*”， 例 如 
print(test list[i], end=“,”)， 后 面 将 会 用 到 。 


2 


input 


input 函数 将 用 户 输入 的 内 容 作 为 字符 串 的 形式 返回 ， 就 算 输入 的 是 数字 ， 但 返回 的 
“数字 ”的 类 型 也 是 字符 串 型 。 
【 例 2-3】 Input 辆 入 : 


>>> a = linput ("Input: ™) 
TNEat | 

> 之 之 量 

1127 


>>> type (a) 


<cClass "str'>» 
>>> p=input (' 请 您 输入 :') 
请 您 输入 :abc 
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>>> bb 
Da” 
>>> type (b) 
<Class “St ”> 
>>> c = int (input ("请 您 输入 数字 : ")) 
请 您 输入 数字 : 231 
>>> tvype (c) 
<cCclass ‘int'> 
>>> d=int (input (' 请 输入 字符; ')) 
请 输入 字符 : acd 
Traceback (most recent call last): 
File "<pyshell#10>", line 1], in <module> 
d=int (input {' 请 输入 字符 ; ')) 
ValueError: invalid literal for int() with base 10: 'acd' 


之 之 


如 果 要 想 获 取 数 字 ， 可 以 使 用 int 函数 将 接收 进来 的 “数字 ”字符 转化 为 数字 。 例 如 : 
wo (in (mY 


但 需要 注意 ， 不 可 以 输入 字符 型 ， 如 输入 字母 则 会 报错 ， 如 例 2-3 最 后 输入 的 acd。 
2.2.8 ”原始 字符 串 


先 看 个 例子 : 


>>> d="c: \news" 
> 是 
Io Nnewes' 


>>> print(d) 


执行 print(d) 语 句 时 ， 出 现 的 不 是 c:mews， 而 是 把 其 中 的 \n 看 成 了 换行 符 。 

为 了 避免 在 print 的 时 候 出 现 上 述 的 歧义 现象 ， 可 以 引入 转 义 符 ， 即 d=“c:\nmews”， 但 
各 输 出 的 路 径 较 长 ， 为 了 方便 起 见 ， 可 以 在 引号 的 前 面 加 上 Tr， 和 表示 工 后 面 引号 里 的 东西 鬼 
原样 输出 。 上 面 的 例子 可 改写 如 下 : 


>>> d=r"c: \news" 
>>> 

I'C:\\News! 

>>> print (d) 


C: “Nnews 
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> 之 之 


2.2.9 range 


Python 中 的 内 置 函 数 range(n) 表 示 一 个 从 0 到 n-1 的 长 度 为 n 的 序列 。 

当然 ， 可 以 目 定义 我 们 需要 的 起 始点 和 结束 点 ， 例 如 : 

>>> range (1,5) 寺 代 表 从 1 到 5 (不 包含 5), 即 1、2、3、4 

>>> 

range(n) 函 数 还 可 以 定义 步 长 。 

下 面 我 们 定义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 

>>> range (1, 30,3) 

ranget{1, 30, 3) 

>>> list (range (1，30，，3)) # 这 里 用 1ist 列表 把 值 显示 出 来 ，1List 在 后 面 介 绍 


[E00 3 To 9 2 3928| 
>>> 


默认 情况 下 ，range0 的 起 始 值 是 0。 
在 numpy 模块 中 ，arange0 类 似 于 range 函数 ， 调 用 时 须 导入 该 模块 : 


import numpy 


numpy.arange (ln) 


2.2.10” 元 组、 列表、 字典、 集合 


1. tuple 


元 组 (tuple) 类 似 于 向 量 ， 元 组 的 元 素 不 能 修改 。 元 组 写 在 小 括号 里 ， 元 素 之 间 用 有 逗号 
隔 开 ， 和 向 量 的 写法 一 致 。 元 组 中 的 元 素 类 型 也 可 以 不 相同 ， 示 例如 下 : 


>>> a = (1991], 201]4, 'physics', ‘math') 

>>> print(a, type(a)}, len(a)) 

‘(11991, 2014, 'Physics', math') <class ‘tuple'> 4 
> 


元 组 与 字符 串 类 似 ， 可 以 被 罕 引 且 下 标 索 引 从 0 开始 ， 也 可 以 进行 截取 切片 (其 实 ， 可 
以 把 字符 串 看 作 一 种 特殊 的 元 组 )。 例 如 : 


> 
人 
J 
ee # 修改 元 组 元 素 的 操作 是 非法 的 
Traceback ‘(most recent call last): 

Filé "<pyshell#21>", line 1, in <module> 
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EOD = ET 
TypeError: tuple’' object does not support item assilgnment 
>>> 


虽然 tuple 的 元 素 不 可 改变 ， 但 它 可 以 包含 可 变 的 对 象 ， 比 如 list 列表 。 对 于 构造 包含 
0 个 或 1 个 元 素 的 tuple 是 个 特殊 的 问题 ， 所 以 有 一 些 额 外 的 语法 规则 : 


>>> tupl = () # 空 元 组 

>>> tupl 

() 

>>> tup2 = (20,) # 创 建 只 有 一 个 元 素 的 元 组 ， 该 元 素 后 面 的 有 速 号 不 可 忽略 
>>> tup2 

(20,) 

>>> tup3 = (20)} 

>>> tup3 

20 

>>> 


和 注意 : 元 组 (2) 其 实 就 是 数字 2， 仍然 是 整 型 ， 但 (2,) 就 是 元 组 。 元 组 是 不 可 添加 和 
删除 的 。 另 外 ， 元 组 也 支持 用 “+” 操 作 符 。 例 如 : 
人 
>>> print (UPL+uPE2) 
下 
>>> 
元 组 由 不 同 的 元 系 组 成 ， 每 个 元 了 率 可 以 存储 不 同类 型 的 数据 ， 而 元 组 中 的 元 又 则 代表 
不 同 的 数据 项 。 元 组 的 创建 可 以 不 定 长 ， 但 创建 后 和 字符 串 一 样 ， 都 是 不 可 修改 的 。 
例如 : 


>>> USer=(1,2,3) 


>>> user[d]=2 


Traceback {most recent call last): 
File "<pyshells>", line 1, in <module> 


user[0]=2 


TypeError: tuple’' object does not support item asslgnment 
>>> 
元 组 的 浴 加 : 

人 


>>> user = (user, '05')  # 注 意 结果 与 两 元 组 用 “+” 操 作 符 结果 的 比较 
>>> user 
0 
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元 组 的 访问 : 

TE ee 

>>>user[0] 

T0017" 

>>>user[2] 

1037 

> 之 

元 组 包含 以 下 内 萤 消 数 。 

@ len(tuple): 计算 元 组 元 系 的 个 数 。 

@ max(tuple): 返回 元 组 中 元 系 的 最 大 值 。 

@ min(tuple): 返回 元 组 中 元 素 的 最 小 值 。 

@ tuple(lisb): 将 列表 转换 为 元 组 (list 在 后 面 介 绍 )。 
二 


3 注意 : cmpO 函 数 在 Python 3.5 中 已 经 被 删除 。 


二 元 元 组 (二 维 ) 的 访问 : 
>>>uUSerl = (1,2,3) 
>>>uUuSer2 = (4,5,68) 
>>>USEer = (userl,user2) 
>>>print (user[l1] [2]) 

6 
元 组 的 解 包 : 


>>> user = {1,2,3) 

Sl # 变 量 个 数 要 等 于 元 组 的 长 度 
> 

1 

>>> b 


2. list 


列表 (list) 用 方 插 写 [标识 ， 其 元 素 写 在 方 插 号 之 间 ， 并 用 逗号 分 隔 开 。 列 表 中 元 素 的 
类 型 可 以 不 相同 ， 例 如 a=[*T’,“you”,“he”,5]。 
列表 的 索引 同 字 符 串 和 元 组 一 样 ， 如 图 2-1 所 示 。 
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list Li 2 
0 
(3 

inNdex 


FR 
2-1 list 索引 图 


列表 array = [1, 2, 5, 3, 6, 8, 4] 对 应 的 元 素 1=array[0]= array[-7]， 以 此 类 推 。 

从 0 开始 ，0 表示 第 一 个 元 素 索 引 ，-1 表示 最 后 一 个 元 素 索 引 ，-len(array) 表 示 第 一 个 
元 素 的 索引 ，len(array)-1 表示 最 后 一 个 元 素 的 索引 。 

len(list) 表 示 取 list 的 元 系数 量 ， 也 即 list 的 长 度 。 

创建 连续 的 list: 

>>> list (range (1,5)) 

| 

>>> Jist (range(l, 10， 2)) # 步 长 为 2 从 1 开始 ; 每 隔 2 取 一 个 数 


[lr 3 3: 1 r 3] 
> 


和 字符 串 一 样 ， 列 表 同 样 可 以 被 罕 引 和 切片 ， 列 表 被 切片 后 ， 返 回 一 个 包含 所 十 元 条 
的 新 列表 。 例 如 : 


| 
>>> al[l:3] 

| 

>>> al[ll] 

'you 

>>> a[l]="'she' 

> 之 已 
| 

>>> 


从 上 面 的 语句 可 以 看 出 ， 列 表 是 可 以 改变 的 ，a[1] 由 原来 的 ‘you’ 变 成 了 ‘she’。 
列表 还 文 持 串联 操作 ， 使 用 “+” 操 作 符 : 


>> 二 [A | 
>>> A+ [6, 7, 8] 

Ll 2 20d 1 | 
>>> 


使 用 a[n:n]=[q] 可 以 在 列表 a 中 的 n 位 置 插入 一 个 值 gq。 例如 : 


>>> 如 三 a 2 4, 3] 
>>> a[2:2]=[3]  ”# 在 列表 中 的 某 位 置 插 入 一 个 值 
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> 之 已 

BE 

>>> len(a) # 测 试 列表 的 长 度 ( 含 元 素 的 个 数 ) 
号 

>>> 


使 用 list(str) 可 以 将 字符 串 转 化 为 列表 。 例 如 : 


>>> woOord='hello' 


>>> list (word)  # 将 字符 串 转 化 为 列表 

BD a a 0 | 

> 

下 面 介绍 list 的 有 关 方 法 。 

(1) list 的 元 素 妃 加。 

CD L.append(var): 授 加 元 了 素 ， 退 加 的 元 妹 可 以 是 一 个 list、 数 、 字 符 串 等 。 
例如 : 


> Wl | 

>>> gd=[8,9] 

>>> w.append (g) # 不 能 写成 w=w .append (9q) 
>>> W 

[Ty ‘25 “Ey [8 391] 


注意 : append 方法 不 能 返回 值 ， 所 以 像 w=w.append(q) 这 样 写 是 错误 的 。 


@ L.extend(list): 合并 两 个 列表 ， 即 把 list 追加 到 工 列表 中 。 不 能 追加 单个 元 素 。 


例如 : 

nl We Eg 
>>> d=[8,9] 

>>> w.extend (9g) 
En 
[3 
>>> 


A 注意 : append 和 extend 的 区 别 是 : append 是 对 列表 添加 元 率 ， extent 是 合并 两 个 


列表 。 
(3) L.insert(index,var): 在 index 位 置 插入 var 元 紊 。 
例如 : 
>>>a 一 由 
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>>>a.linsert(l1,'lJ]ove') 
>>>a 
EE | 
>>> 
(2) 从 list 删除 元 素 。 
使 用 L.pop(index) 从 list 删除 元 素 ， 返 回 被 删除 的 index 位 置 元 每 ， 只 能 删 一 个 元 又 ， 
并 从 list 中 删除 这 个 元 素 。 默 认 删 除 最 后 一 个 元 素 。 例 如 : 


>>>a = Tl en | 
>>>a .pop (2) 

The! 

>>>a 


oT MO Z| 
>>>a .POpP() 

号 

>>>a 
了 
>>> 


使 用 del L[index] 删 除 指 定 索 引 的 元 系 。 例 如 : 


| 
>>>del a[3] 
之 之 恒 
hed 
> 


使 用 del LIm:n] 删 除 指定 索引 范围 的 元 素 。 例 如 : 


| 
EST al[ll:3] # 删 除 1ist 中 索引 为 1、2 的 值 
>>> 已 

后 

之 庆祝 


使 用 L.remove(van 删 除 第 一 次 出 现 的 var 元 素 。 例 如 : 


| 

>>>11i.removert(4) 

>>>11 
[le 

> 


另外 ， 还 可 以 使 用 切片 的 方法 来 删除 。 例 如 : 
>>>11i = [1,2,;3,4,5;6] 
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汉王 工 荆 [二 一] 


>>>11 

[i Zr 3r 4 3] 

和 

(3) list 操作 符 (:、 二 、*)。 例 如 : 

> > > 已 一 [人 

>>> a[l:] # 上 厂 段 操作 符 ， 用 于 子 1ist 的 提取 
[oo her 5 

>>> [1,2]+[3,4] # 同 extend() 


[| 
>>> [2]*4 
[2 2 2 2] 
二 


(4) list 的 索引 冒号 用 法 。 
冒号 前 后 表示 索引 切片 的 起 止 位 置 。 例 如 : 


> > HPIavVv = [lie 2 bb 3 6 3 4 

>>> array[0:] # 列 出 索引 0 以 后 的 
区 

>>> array[1:] # 列 出 索引 1 以 后 的 
| 

>>> array[:-1] # 列 出 索引 -1 之 前 的 
| 

>>> array[3:-3] 碍 列 出 索引 3 到 索引 -3 之 则 的 
[ 3] 

> 


两 个 冒号 [::] 表 示 取 全 部 索引 。 例 如 : 


| 

>>> array[::2] # 表 示 步 长 为 2 取 元 素 ， 即 隔 一 个 元 素 取 一 个 元 素 
EE 

>>> arrayl[z2::|] 

[Sr 3 © 8 4] 

>>> array[::3] 

EE 

>>> arrayl::4] 

[1 €] 


双 冒 号 [::] 还 可 以 形成 reverse 图 数 的 效果 。 例 如 : 


~» rrIav = [lr Zr dr Sr br Be 4| 


| | 
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> 
>>> Bray[::-2] 
[a 

> 


(5) list 排序 。 

对 列表 进行 排序 可 以 使 用 sort0 和 sortedO 函 数 。 

GD sort0: 此 函数 对 列表 排序 时 ， 会 改变 列表 本 身 ， 从 而 让 其 中 的 元 和 素 按 一 定 的 顺序 
排列 。 例 如 : 


> a 

>>> 已 .SOL 上 上 () 

>>> a 

[lr ar 3 dr Sr Gr J 

>>> SoOrt (a) 

Traceback (most recent call last): 

File "<pyshell#3>", line 1, in <module> 

sort (a) 

NameError: name '‘'sort' is not defined 

>>> help (a) 


Sort(...) 


L.SsSort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 
>>> 


从 help 可 知 ，sortO 歌 认 按 从 小 到 大 排序 ， 可 以 琴 加 参数 reverse=True， 变 成 从 大 到 小 
排列 。 例 如 : 


| 
>>> e.sSort (reverse=TIrue) 
>>> ee 

ES 

> 之 之 


3 注意 : ”sort0 通 数 使 用 的 是 “.” 方 法 ， 即 a.sort()， 使 用 sort(a) 就 会 报错 。sortO 函 数 
会 改变 原来 的 列表 ， 且 函数 返回 值 为 空 ， 即 None。 因 此 ， 如 果 需 要 一 个 已 
排 好 厅 的 列表 副本 ， 同 时 又 要 保留 原 有 列表 不 被 改变 ， 就 不 能 直接 简单 地 使 
用 sortO 函 数 (为 了 实现 上 述 功 能 ， 可 以 使 用 sorted(a) 方 法 )。 例 如 : 
| 
> TD # 返 回 空 值 None 


>>> print{(e) 


None 


地 ， sorted0: 此 函数 对 列表 进行 排序 时 ， 直 接 获 取 列 表 排 序 的 一 个 副本 。sorted0 函 数 
可 以 用 于 任何 可 连 代 的 对 象 。 例 如 : 


a = [3r2r9r dy, 9,8,1] 
sorted {a) 
2 3, 4, 


>>> 


# 对 a 排序 后 产生 一 个 新 的 列表 


> 之 


@ a.sortO0 和 sorted(a) 有 区 别 : sorted(a) 产 生 的 是 一 个 新 列表 ， 不 改变 原 列表 
a; 而 a.sort0 是 对 列表 a 直接 排序 ， 破 坏 了 原 列表 。@@ sorted0O 既 产生 新 的 排 
序列 表 又 保持 原 列 表 不 被 改变 ， 这 个 功能 也 可 以 通过 找 贝 副本 的 方法 来 实 
现 : 先 获 取 列 表 a 的 一 个 副本 b， 然 后 再 对 b 进行 b.sort0 排 厅 。 

为 了 理解 得 更 深刻 ， 我 们 将 对 a 和 bb 的 存储 地 址 进行 得 验 ， 代 码 如 下 : 


Sy a = [3,.2.5.4,9.9.1] 
>>> id(a) # 查 看 a 的 存储 地 址 

55494776 

>>> b=a[:] # 挡 风 一 个 副本 b 

>>> b 

[2 200 019990 

>>> id (b) # 查 验 pb 的 存储 地 址 

55486264 # 发 现 b 和 a 地 址 不 一 致 ， 说 明 复制 了 一 份 
>>> c=a # 再 复制 一 个 副本 c， 比 较 c 和 a 的 存储 地 址 
->> CC 

130 U0 

>>> id(c) # 查 验 c 的 存储 地 址 

55494776 # 发 现 c 的 地 址 跟 a 一致 ， 说 明 c 是 a 的 一 个 标签 ， 不 是 真 复制 


>>> 了 .SOT (| 
>>> b 
[1l, 2, 
>>> a 
上 


ry 


4， 


>>> CcC.SsSort() 
> 
[了 
之 之 之 量 


# 对 b 进行 排序 
FF 总 | 

#b 排序 后 对 a 没有 影响 
9, BB, 1] 

# 对 c 进行 排序 
no, 人 9] 

#c 排序 后 对 a 有 影 啊 
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从 上 面 代 码 显 示 的 存储 地 址 知道 ，c 仅仅 是 a 的 一 个 标签 ， 并 不 是 真正 意义 上 的 复 
制 ， 不 论 是 a 改变 ， 还 是 e 改变 ， 其 实 改变 的 都 是 同一 个 地 址 里 的 内 容 ， 所 以 互相 有 影 
啊 。 只 有 b 才 是 真正 意义 上 的 拷贝 ,后面 我 们 还 会 遇 到 “ 深 找 由 ”。 再 如 : 

>>> X=[4,6,2,1],7,9,4] 

>>> y=x[:] 

>>> VY.Ssort1{) 

>>> print (x) 

FT 4] 

>>> print(v) 

[ll, 2, 4, 4, 6, J/,: 3] 


说 明 : ”调用 x[:] 得 到 的 是 包含 了 x 所 有 元 素 的 切片 ， 这 是 一 种 很 有 效率 的 复制 整个 
列表 的 方法 。 通 过 y=x 简单 地 将 x 赋值 给 y， 仅 仅 是 给 y“ 贴 ”了 一 个 指向 
x 的 标签 ， 最 终 xX 和 yy 都 指向 了 同一 个 列表 。 


(3) ”reverse(): 此 函数 用 来 进行 倒序 排列 。 例 如 : 


> mE] 3 
>>> e.reverse!() 

>>> e 

[5r 4r 3r <r 1] 

> 之 之 


或 者 : 
>>> reversed([1,2,'L'])  # 这 样 返 回 的 是 一 个 迭代 器 ， 可 以 用 1ist 转化 为 列表 


<list reverseiterator object at Ox02C921B0> 
>>> Jist (reversed([1,2,'L']})) 

ll 

>>> 


或 者 : 


>>> W=[l1,2,'L'| 


对 字符 串 也 可 以 同样 有 反 转 。 


31. 


mw 亿 驴 Python 数据 分 析 基 础 
(6) 其 他 方法 。 
@  L.count(van: 返回 var 元 素 在 列表 中 出 现 的 个 数 。 
@ LL.index(var): 返回 第 一 个 var 元 紊 的 位 置 ， 无 则 抛 出 异 稼 。 
列表 对 象 音 用 的 方法 汇总 如 表 2-5 所 示 。 
表 2-5 list 对象 常用 的 方法 


list.append(x) 把 一 个 元 素 谎 加 到 列表 的 结尾 ， 相 当 于 a[len(a):] = [x] 

list.extend(L.) 将 一 个 给 定 列表 中 的 所 有 元 素 都 添加 到 另 一 个 列表 中 ， 相 当 于 allen(a):] =L 
在 指定 的 索引 位 置 i 揪 入 一 个 元 素 x。 如 a.insert(0，x) 会 插入 到 整个 列表 之 前 ， 而 
a.insert(len(a), x) 相 当 于 a.append(x) 

list.remove(x) | 删除 列表 中 第 一 次 出 现 的 值 为 x 的 元 素 。 如 果 没 有 这 样 的 元 素 ， 就 会 返回 一 个 错误 
从 列表 的 指定 位 置 删除 元 素 ， 并 将 其 返回 。 如 果 没 有 指定 索引 ，a.popO 返 回 最 后 一 
个 元 素 ， 该 元素 随即 从 列表 中 被 删除 

list.index(x) 返回 列表 中 第 一 个 值 为 x 的 索引 。 如 果 没 有 匹配 的 元 素 ， 就 会 返回 一 个 错误 

list.count(x) 返回 X 在 列表 中 出 现 的 次 数 ( 可 以 用 于 做 列表 中 的 得 重 ) 

list.sort() 对 列表 中 的 元 素 就 地 进行 排序 (改变 了 原 列 表 ) 

list.reverse() 了 台地 倒 排列 表 中 的 元 素 ( 改 变 了 原 列 表 ) 


list.insert(1, xX) 


list.pop(1) 


3. dict 
先 来 看 列表 存储 通信 录 。 
【 例 2-4】 通 信 录 的 存储 : 


>>> name=["Ben"y," JOne -rr JUJhon -Jerry Amy rr Ivy", Jan rr Wong 
>>> tel=[6601,6602,6603,6604,6605,6606,6607,66081 


这 里 通信 有 录 存储 在 两 个 list 中 (一 个 list 是 姓名 ， 一 个 list 是 对 应 的 手机 号 )， 但 是 要 查 
阅 某 个 人 的 电话 号 码 ， 显 得 很 不 方便 。 

为 了 便于 查阅， 在 Python 中 有 另外 一 种 存储 方式 : 字典 。 

字典 是 一 种 映射 类 型 (mapping type)， 它 是 一 个 无 序 的 “ 键 : 值 ” 对 集合 。 每 一 个 元 素 
部 是 pair， 包 含 关 键 字 key、value 两 部 分 。 

key 是 Integer 或 string 类 型 ，value 是 任意 类 型 。 即 : 


{kevy: valuel} 


关键 学 (key) 必 须 使 用 不 可 变 类 型 ， 在 同一 个 字典 中 ， 关 和 键 学 必须 互 不 相同 。 例 如 : 


>>> dic = {]} # 创 建 一 个 空 字 上 典 
>>> dic tel = { Jack :1l33, Tom':1320, "Rose" :1886} # 创 建 一 个 字典 
>>> print (dic tel)  ”# 打 印字 上 典 
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下 

>>> 

所 以 例 2-4 也 可 以 用 字典 来 存储 。 下 面 用 裔 历 的 方法 来 操作 ( 裔 历 将 在 后 面 介绍 )， 其 
原理 是 : 每 次 从 name 中 取 一 个 姓名 ， 记 为 n1， 再 从 tel 中 取 对 应 的 号 码 ， 记 为 tL， 再 把 
nl 和 tl 组 成 键 值 对 n1:t1， 作 为 字典 Tellbook 中 的 一 个 元 素 ， 如 此 循环 ， 就 全 部 构成 了 字 
典 的 元 系 。 

【 例 2-5】 列表 转 成 字典 : 

>>> name=["Ben™", "Jone","Jhon", "Jerry yy, "Anny", IVvy", " Jan, Wong"l| 

>>> tel=[6601,6602,6603,6604,6605,6606, 6607,66081] 

>>> Tellbook={} # 创 建 一 个 空 字 上 典 


>>> for 1 in range (len (name)): 


dl="{}",.format (name [i]) # 从 name 中 取 一 个 姓名 

d2="{}".format (tel1i]) # 从 tel 中 取 一 个 电话 

Tellbook[d1]=d2 # 再 把 a2 赋值 给 字典 Tellbook 的 dl 键 
>>> print (Tellbook) 
{'Jan': '6607', ‘Ben': '6601', 'Ivy': ‘'6606', 'Anny': '6605', 
IWong': '6608', "Jhon': '6603, Jone': 16602', IJerry1: '66047) 
> 


(1) 字典 的 增 、 删 、 改 、 碍 。 
以 下 为 字典 的 一 些 常 用 操作 方法 示例 : 


Tellbook['Wang'] = 3 # 给 键 赋值 ， 千 键 不 存在 ， 则 直接 创建 此 键 
del Tellbook['Wong'] # 删 除 一 个 键 值 对 

Tellbook['Ben'] # 通 过 kev 查询 对 应 的 值 

list (Tellbook.kevs (}) # 返 回 所 有 kev 组 成 的 list 

list (Tellbook.values ()) # 返 回 所 有 value 组 成 的 List 

sorted (Tellbook. keys ()) # 按 key 对 字典 排序 

'Ben' in Tellbook # 成 员 测 试 

'Mary' not in Tellbook # 成 员 测 试 


可 以 用 构 千 函数 dict0 直 接 从 键 值 对 构建 学 典 ， 例 如 : 


人 
{'guido': 4127, " jack" : 4098， 'sape': 4139} 

>>> dict (sape=4139, guido=4127, jack=4098) 

{'guido': 41271, 'Jack': 4098, 'sape': 4139} 

>>> 


字典 有 .items 方法 : 将 字典 里 的 元 素 ( 一 个 键 值 对 ) 转 化 为 元 组 ， 作 为 列表 的 一 个 元 素 。 
例如 : 
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SA 

>>> t= d.items() 

>>> print(t) 

Let TCEmM LL DD pl 3 ll 
>>> list{(t) 

CT | 

>>> 


当然 ， 上 面 的 过 程 是 可 逆 的 ， 即 元 组 列表 可 以 初始 化 成 字典 : 


> 
>>> d=dict (七 ) 

>>> Print(d)} 

2 


>>> 

使 用 update 图 数 可 以 合并 两 个 字典 : 

>>> dict = {'Name': '2ara', 'Age': 7} 
>>> dict2 = {'Sex': '‘'female'} 


>>> dict.update (dict2) 


>>> 局 LC 


{'Age': "7, "Sex': female"， Name": "Zara"} 
> 

用 tuple 作为 键 可 以 创建 字典 ; 

>>> Seq = (mame ‘'age', 'Sex') 


>>> dict = dict.fromkeys (seq) # 给 字典 kev 的 赋值 来 目 seq 

> dict # 国 为 仅 有 kev， 没 有 value， 所 以 显示 键 值 为 空 None 

{“ SEX : NOne， age : None, name : Nonel} 

>>> dict = dict.fromkeys (seq，，10) # 给 字典 键 值 对 赋值 ， 这 里 假设 都 赋 10 


> 局 Le 


[SS 并 0 "age* 1 names 10) 

>>> 

字典 有 下 列 “.” 方 法 : 

D.get (key, 0) # 同 dict [key] ， 此 处 参数 为 0 (也 可 以 是 其 他 的 ， 如 none)， 
# 表 示 字 典 D 中 若 没 有 key 键 则 返回 指定 的 值 0 

D.keys () # 人 返回 字典 键 的 列表 

Dest) # 人 返回 字典 值 的 列表 

D.items () # 将 字典 转化 为 元 组 作为 元 素 的 一 个 列表 

D.upaate (dict2) # 合 并 字典 ， 将 dict2 增加 到 当前 的 字典 中 

D .pop (key) # 从 字典 中 删除 指定 的 键 值 对 ， 键 名 这 个 参数 必须 有 

D .PoPitenm() # 没有 参数 则 从 手 典 中 随机 删除 一 个 键 什 对。 已 空 则 抛 出 异种 


【时 
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D.clear () # 清 空 字典 ， 不 同 于 del dict 是 删除 字典 

D .copy () # 抄 贝 字 典 

Dictl=dict.copy() # 殉 隆 ， 即 另 一 个 浅 撕 贝 ， 深 措 贝 则 是 deepcopy 
示例 如 下 : 


>>> dict={"'sex': 10, ‘age': 1L0， "name’': 10} 

>>> dict.get('sex'， 'None') # 雁 没有 sex 和 键 ， 则 返回 指定 的 None 

10 

>>> dict,.kevs{() # 要 想 获 取 键 名 列表 ， 直 接 1ist (dict.keys()) 即 可 
dio oneyatl Se Pr age .Tame ll 

>>> dict.items{) # 要 想 获 取 键 值 列表 ， 直 接 tuple (dict.kevs() ) 即 可 
drict Ttems{([ll sexr sy JD (lages ry 10 name ys 0 

>>> dict.pop('sex') # 有 删除 sex 键 值 对 

10 

>>> dict 

{'age': JO0, name : 10} 

>>> dict["'sex'" |]=10 # 增 加 键 值 对 sex: 10 

>>> dict 

I aeax » TO0. "age ss 1g. Tames 10) 

>>> dict.popitem() # 随 机 删除 一 个 键 值 对 

( "Sex 10) 

>>> dict 

{'age'': ly, 'name': 10} 

>>> dictl=dict.copy() # 复 制 ( 浅 拷贝 ) 一 个 字典 ， 浅 拷贝 只 对 简单 类 型 拷贝 
>>> dictl 

{ age": 10, ‘name': 10} 

>>> dict.clear() # 请 空 字 典 ， 不 是 删除 字典 ， 即 得 到 一 个 空 字 上 典 

>>> dict #dict 已 经 变 成 了 一 个 空 字 — 典 

出 

>>> jmport copy  # 导 入 copy 国 数 (或 者 是 模块 ) 

>>> qict=copy.deepcopy(dict1)  # 深 卉 贝 ， 将 dict1 拷贝 给 dict 
>>> dict 

{ age: JU, mame : 10]} 


>>> 

【 例 2-6】 字 典 内 置 get 方法 的 调用 。 

假设 用 户 在 终端 输入 字符 串 :“1”、“2” 或 “3”， 则 返回 对 应 的 内 容 ， 如 果 输 入 其 他 的 ， 
则 返回 “error*。 程 序 如 下 : 

sino = EE | et re tr 

>>>print (info.get (input('input type You number: ')}, 'error')) 


input type vou number:2 


Second 
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> 
回顾 一 下 D.get(key, None) 的 用 法 : 表示 字典 D 中 在 有 key 这 个 键 ， 则 人 返回 其 键 值 ， 石 
没有 key 键 ， 则 返回 指定 的 值 None。 当 然 ， 这 里 的 None 也 可 以 改写 成 D.get(key， 哈哈 ， 

列 返 ， 你 输 错 了 ! )， 当 没有 key 键 的 时 候 ， 则 返回 哈哈 ， 别 速 ， 你 输 氏 了 ! 

具体 程序 如 下 : 

>>>info = {1':'first','2':'Sgecond','3':'third'} 

>>>print (info.get (input ('input type you number:')，" 哈哈， 别 逼 ， 你 输 错 了 ! ')) 
input type you number:5 

哈哈 ， 别 逗 ， 你 输 错 了 ! 

>>> 

(2) 字典 的 排序 。 

在 程序 中 使 用 字典 进行 数据 信息 统计 时 ， 由 于 字典 是 无 序 的 ， 所 以 打印 输出 的 字典 内 

容 也 是 无 序 的 。 因 此 ， 为 了 方便 结果 得 看 ， 需 要 对 字典 进行 排序 。Python 中 字典 的 排序 分 

为 按键 key 排序 和 按 值 value 排序 。 

QD 按 “ 值 ”排序 。 

按 “ 值 ”排序 ， 就 是 根据 字典 的 value 进行 排序 ， 可 以 使 用 内 置 的 sorted0O 函 数 。 

例如 : 

>>> dict={' 班 级 ': 1, 'age': 10, 'gcore': 10] 

>>> sorted(dict.items({(), key=lambda e:e[l], reverse=True) 

rs 

>>> 

其 中 e 表示 dict.itemsO 〇 中 的 一 个 元 素 ，e[1] 则 表示 按 值 排 序 。reverse=False 可 以 省 略 ， 
默认 为 升序 排列 。 

说 明 : 字典 的 .items0 〇 函数 返回 的 是 一 个 列表 ， 列 表 的 每 个 元 素 都 是 一 个 键 和 值 组 成 
的 元 组 。 因此，sorted(dict.items()，key=lambda e:e[1], reverse=True) 返 回 的 值 
同样 是 由 元 组 组 成 的 列表 。1lambda 函数 后 面 会 专门 介绍 。 

@， 按 “ 键 ”排序 。 

对 字典 进行 按键 排序 也 可 以 使 用 sorted0 函数 ， 只 要 修改 为 sorted(dict.items(， 
key=lambda e:e[0], reverse=True)B 即 可 。 

4. set 


集合 (set) 是 一 个 无 序 、 不 重复 元 素 的 集 ，set 的 基本 功能 是 去 重 。 可 以 使 用 大 括号 {或 
者 setO 〇 函数 创建 set 集合 。 
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% 关 注意 : ”创建 空 集合 必须 用 set()， 不 能 使 用 { }， 因 为 {} 是 用 来 创建 空 字典 的 。 


例如 : 

Ss atudent = Tom TEN POOR RSE 有 于 复元 亲 
>>> print (student) # 重 复 的 元 素 被 目 动 去 挥 

{'Jim’', ‘Jack', 'Mary', ‘Rose', "Tom"’} 

>>> 'Rose' in student #membership testing (成 员 测 试 ) 

True 


>>>student .add('Ben') # 增 加 一 个 元 素 
>>> print (student) 


>>>{ "Jim’', ‘Jack', Mary', 'Rose', "Tom', 'Ben'} 


>>> 

集合 的 运算 

>>> a = set('abracadabra') # 将 字符 串 拆 成 集合 
>> 之 日 


[I A i 'a', 二 


>>> b = set('alacazam') # 将 字符 串 拆 成 集合 


>>> b 

LT 2 A ry 

>>> a-b # 从 a 中 去 除 b 的 元 素 
(ED 

>>> alb #a 和 b 的 并 集 
和 

>>> akb # 提 取 a 和 jb 的 公共 元 素 一 一 交集 


{ "a"', ee 
>>> a“b  # 提 取 a 和 Pb 中 不 同时 存在 的 元 素 (交集 的 补 集 ， 也 叫 对 称 差 ) 
下 


> 这 之 


集合 的 去 重 。 集 合 有 过 滤 重 复元 聚 的 功能 ， 目 动 将 重复 元 素 删除 。 例 如 : 


>>> set((2,2,2,4,4)) 
{2, 4} 
> 


2.2.11 格式 化 输出 


1， % 格 式 化 输出 


Python 用 print 进行 格式 化 输出 ， 有 以 下 几 种 模式 。 
(1) 输出 字符 串 : 
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>>> Pintt" HS name is %s"%{"Aviad™)) 
His name is Aviad 


> 


打印 输出 的 内 容 里 (“His name is %s”%(“Aviad”)) 有 两 个 %， 其 中 %s 表示 先 在 “His 
name is %s” 这 个 字符 串 中 占 个 位 置 ， 而 后 面 的 “Aviad” 才 是 %s 位 置 上 真正 要 显示 的 内 容 ， 
也 就 是 %s 位 置 上 要 显示 的 内 容 在 后 面 % 的 括号 内 ， 即 “Aviad”。 

(2) 输出 整数 : 


>>> DPInt( He is %d Years old"$®%(25)) 
He is 25 years old 
>>> 


第 一 个 例子 中 %s 是 要 人 普 字符 串 呈 位置， 这 里 的 %d 表示 要 输出 后 面 提供 的 整数 。 
(3) 输出 泽 反 数 : 


>>> print ("His height is %f m"%®(1.83)) 
His height is 1.830000 m 
~ 


这 里 %f 表示 输出 后 面 提供 的 浮 挟 数 。 

(4) 输出 浮上 操 数 (指定 保留 小 数 点 位 数 ): 

>>> print ("His height is %.2f m"%®%{(1.83)) 

His height is 1.83 m 

这 里 的 %.2f 表示 只 显示 小 数 点 后 两 位 数字 ， 也 就 是 指定 了 保留 小 数 点 位 数 。 
(5) 输出 指定 占 位 符 的 宽度 : 


>>> print ("Name:$%1l0s Age:%®%8d Height:$%8.2f"$% ("Aviad™",25,1.83)) 


Name : Avliad Age: 25 Helght: ] 
Sy Drint(t" Tove SS.28" %rovthon"y 

1 love py 

>>> 


(6) 输出 指定 占 位 符 的 完 度 ( 左 对 齐 ): 


>>> print ("Name:$-]0s Age:®%-8d Helilght:%®%-8.2f"$%$ ("Aviad",25,1.83)) 
Name :Avliad Age:25 HETolit el 
>>> 


(7) 指定 鼎 位 从 (0 或 者 空格 ): 


>>> print ("Name:$-l]0s Age:®%08d Height:%08.2f"$% ("Aviad",295,1.83)) 
Name :Avliad Age:00000025 Height:00001.83 
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> 之 之 


2. format 格式 化 输出 


格式 化 字符 串 的 函数 str.formatO 可 谓 威力 十 下 。format 函数 跟前 面 的 % 型 格 却 化 字符 
串 相 比 ， 其 优越 性 是 通过 {} 和 .来 代 谷 %， 看 如 下 示例 : 


>>> {0},{1l}' .format('vubg" ,39) # 这 里 的 0 和 1 表示 的 是 位 置 案 引 
‘yubg, 39°" 

Sl Formatl vibd 39) # 人 位置 索引 也 可 以 为 空 

‘vubgr, 397" 


人 # 可 以 接受 多 个 参数 ， 位 置 可 以 无 序 
es a hl 
> 


format 的 关键 字 参 数 : 


>>> '{name}, {age}' .format (age=39,name="'yubg'’) 
'yubg, 39， 
>>> 


有 多 个 输出 需要 多 个 占 位 符 时 ， 可 以 通过 设 定 下 标 加 以 区 分 : 


>>> p=["'Yyubg',39] 
>> "OL {DEL] + .format tp 


"vyubg, 39" 

格式 限定 从 : 它 有 者 丰 宦 的 格式 ， 比 如 填充 与 对 章 ， 语 法 为 位 中 市 : 写 。 填 充 和 对 齐 经 
党 一 起 使 用 。 

© 人 ^ 居中 ， 后 和 面市 宽度 。 


@ < 一 一 左 对 齐 ， 后 面 带宽 度 。 


e :一 一 后 面 带 填充 的 字符 ， 只 能 是 一 个 字符 ， 不 指定 时 ， 默 认 是 用 空格 填充 。 
例如 : 

>>> '{:>8}'.format('189') # 默 认 是 用 空格 来 占 位 ， 机 显示 的 内 容 靠 右 对 齐 

' 189" 

>>> '{:0>8]}'.format{'189') # 用 0 来 占 位 

T00000189" 

>>> '{:a<8}' .format('189') # 用 字母 a 来 占 位 ， 要 显示 的 内 容 徘 左 对 齐 
"189aaaaa' 

>>> '{:* 售 7}'.format('189')# 用 * 来 占 位 ， 共 显示 7 位 ， 要 显示 的 内 容 拓 中 

1 去 ] 名 9 太太 下 
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精度 与 类 型 f 精度 第 跟 浮 点 数 类 型 f 一 起 使 用 。 
例如 : 


>>> '{:.2f}' .format (321.33345) # 保 留 两 位 有 效 数 字 
ol 33 
> 


2.2.12 strip、split 


1. strip() 


strip、1strip、Istrip 的 使 用 方法 如 下 。 

@ strip: 去 掉 字 符 串 两 边 的 空格 。 

@ lstrip: 去 挥 子 符 串 左边 的 空格 。 

@ rstrip: 去 挥 字符 串 右边 的 空格 。 

Python 中 的 strip 用 于 去 除 字 符 串 的 首尾 字符 ， 同 理 ，lstrip 用 于 去 除 左 边 的 字符 ， 
rstrip 用 于 去 除 右边 的 字符 。 这 三 个 函数 都 可 以 传 入 一 个 参数 ， 指 定 要 去 除 的 首尾 字符 。 需 
要 注意 的 是 ， 传 入 的 是 一 个 字符 数组 时 ， 编 译 器 去 除 两 端 所 有 相应 的 字符 ， 直 到 没有 匹配 
的 字符 为 止 ， 例 如 : 

>>> theString = Saaaay yes or no yaaaass' 

> BrInNt (thnestring .Striptl sav'y) 

yes or no 

>>> theSstring 


‘'sSaaaay YeS or no yaaaass' 


> 这 之 


theString 依次 被 去 除 首 尾 在 [sa y”] 列 表 内 的 字符 ， 直 到 字符 不 在 数组 内 ， 所 以 ， 答 
出 的 结果 为 : yes or no。 当 然 ， 这 里 生成 的 是 一 个 “副本 ”， 不 会 改变 原来 的 字符 串 


theString 。 
lstrip 和 rstrip 的 原理 一 样 。 当 没有 传 入 参数 时 ， 是 默认 去 际 自 尾 的 空格 。 
例如 : 
-Lhnesteing SaaaayY Vasorno vaadaass, 


>>> print (thestring.strip('say') ) 
Ves Or no 
>>> theString.strip{'say') 


' Vyes or no ' 
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>>> thestring.stript{'say ') 
'eSs Or No 

>>> theString.lstrip('say') 
' Yes or no vyaaaass' 

>>> thestring.rstrip('savy') 
"saaaay Yes Or no 


> 


2. split() 


split(0) 的 作用 是 对 字 和 从 串 进 行 分 割 |。 
(1) 按 茶 个 字符 分 制 。 如 按 … 进 行 分 割 : 


>>> str = ('www.i-nuc,.com’') 
>>> print (str) 

Www.I-nuc .Com 

ey 
>>> Print(str split) 


[WwW i—nuc'', ‘com'] 


>>> 

(2) 按 某 个 字符 分 割 ， 且 分 割 n 次 。 如 按 和 …' 分 割 1 次 : 
>>> str = (WWWwW. 1-—-NUuC. Comr') 

> gtr gplit  — Str splitt" a rl) 


>>> print (str spl1it) 
[ www i-nuc.com'l] 


> 之 之 


(3) 按 某 个 字符 (或 字符 串 ) 分 割 ， 且 人 分割 n 次 ， 并 将 分 割 完 成 的 字符 串 ( 或 字符 ) 赋 给 新 
的 n+l 个 变量 。 
如 按 … 分 割 字符 ， 且 分 割 1 次 ， 并 将 分 割 后 的 字符 串 赋 给 两 个 变量 strl 和 str2: 


>>> url = (WWW.1-—nNuc.com’') 
Se 
>>> print (strl,str2) 

WWW 1l1-nNnuc,.com 

>>> print (strl) 

WWW 

>>> print (str2z) 

T= 

> 之 之 


【 例 2-7】 提 取 下 面 字 符 串 中 的 50,0,51: 
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二 工交 环 天 和 天 我 天 乱 环 王 环 呈 [SO.0 S51 | xr" 
人 
>>> print (1st) 

| 

> 


分 解 如 下 : 


>>> list =str.splitt{"[") # 按 照 左 边 分 割 

mr Brintllliety 

[ "XXXERERNNUNAG 90.0,.51|]2>, RXRNKKAAKR' | 

>>> str.split("[") [1] .split("]") # 再 对 1ist 的 index=1 的 元 素 按 "] "分 割 

| SLU > ww | 

>>> str,split("[") [1] .split("]") [0] # 提 取 分 割 后 的 第 一 个 元 素 ， 即 jndex=0 
SD 


>>> str.split("[") [1] .split("]") [0] .split(",") # 对 提取 后 的 按 “,” 分 割 
Ly 人 地 
> 


2.2.13 divmod() 


divmod0: 返回 的 商 和 余数 是 一 个 tuple。 
格式 : divmod( 被 除数 ， 除 数 ) 

返回 值 ，( 丙 ， 余 数 ) 

例如 : 


>>> 七 = divmod (7,3) 
>> > 七 

(2, 1) 

>>> 


或 者 : 


>>> Guot,rem = divmod (7,3) 
>>> print (quot, rem) 

2 | 

>>> 


2.2.14 join() 


使 用 join0 函 数 ， 可 以 把 一 个 list 或 者 tuple 中 所 有 的 元 素 按 照 定 义 的 分 隔 符 (sep) 连 接 
起 来 ， 但 限于 元 素 是 字符 型 。 
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语法 : “sep’.join(seq) 
例如 : 


cp 
PE 

>>> X="|".Jjoinl(a) 

>>> Xx 

已 [DC 


> 


es 

Ln 

ed 

| 

Td 

Traceback {most recent call last): 

File "<pyshell#50>", line 1, in <module> 

| :orLn(c) 

TypeError: sequence item 0: expected str instance, int found 

pe ei ss hs 

| 

Vl 

> 


本 章 小 结 


本 章 知识 点 较 多 ， 重 点 是 list、tuple、dict、set。 
(1) 测试 变量 类 型 : 

type (变量 ) 

(2) 转换 变量 类 型 : 


str (变量 )  # 将 变量 转换 为 st 
int (变量 )  # 将 变量 转换 为 int 


(3) 碍 询 相 关 命 令 的 属性 和 方法 dir0: 


>>> dir(list) 


tn 
we 00 

” getattribute ", " ‘getitem rr qt “"» ” hash "yy " ladd “, 
人 汪汪 


mul 2 ne oi New 让 Fednee ee reduce ex 
b repr LT VEISEd rimul es We Se 七 LI 七 em ', 
sizeof = str se subclasshook ', ‘append', ‘clear', 'Copy', 


‘Count', ‘extend', pe 'insert', Pop remove', 'reverse', Sort ' ] 

>>> 

从 上 面 的 列表 中 可 以 看 出 ，list 删除 有 两 个 属性 pop 和 remove(pop 默认 删除 最 后 一 个 
元 素 ，remove 删除 首次 出 现 的 指定 元 素 )。 

(4) 查询 已 安装 的 模块 : 


help( modujles ) 


对 于 初学 者 而 言 ， 也 许 dir0 和 helpO 这 两 个 函数 是 最 有 用 的 ， 使 用 dir0 可 以 查看 指定 
模块 中 包含 的 所 有 成 员 或 者 指定 对 象 类 型 支持 的 操作 ， 而 helpO 函 数 则 返回 指定 模块 或 函 
数 的 说 明文 档 。 例 如 : list 和 tuple 是 否 都 有 pop 和 sort 方法 呢 ? 那 用 help 查 一 下 ， 束 很 清 
楚 了 ， 并 且 列 出 了 具体 的 用 法 : 


>>> help (list) 


Help on class list in module builtins: 


append(...)} 


L.append (object} -> None -— append object to end 
L.pop{({[index|]}->item--remove and return item at index (default last). 


Ralises IndexError if list is empty or index 1s out of range. 


| 

| 

| 

| Pop(..:) 
| 

| 

| Sort za) 
| 


L.sort (key=None, reverse=False) -> None -- stable sort *IN PLACE* 


el Ee 


Help on class tuple in module builtins: 


Ms a we 

| T.count (value) -> integer -—- return number of occurrences of value 
| 

| index(...) 

| 


T.index{value, [start, [stop]l]])->integer-—-return first index of 


| Ralses ValueError if the value is not present. 


(5) 查询 两 个 变量 的 存储 地 址 是 否 一 致 ， 使 用 idO 即 可 。 
(6) 查询 字符 的 ASCII 码 (十 进 制 的 ): 


并 
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号 了 了 
>>> 


反 过 来 ， 有 了 十 进 制 的 整数 ， 如 何 找 出 对 应 的 字符 ? 


>>> chr(97) 
ET 


> 


(7) 查找 字符 串 的 长 度 : 


lenl() 


(8) str 通过 索引 能 找 出 对 应 的 元 素 ， 反 过 来 ， 能 人 否 通 过 元 床 找 出 索引 ? 


>>>8= python good' 
>>>s[1] 

ry! 
>>>Ss.lndext{('y') 

1 

> 之 之 


(9) tuple、list、string 的 相同 点 。 

每 一 个 元 素 都 可 以 通过 索引 来 读 取 ， 都 可 以 用 len 测 长 度 ， 都 可 以 使 用 加 法 “+” 和 数 
滋 “*”。 数 乘 表示 将 tuple、list、string 重复 数 倍 。 

list 的 .append、.insert、.pop、.del 和 list[n] 赋 值 等 方法 属性 均 不 能 用 于 tuple 和 str。 

(10) str.split0 是 将 字符 型 转化 成 list， 如 下 例 : 

>>> s='I love python; and\nyou\t?hehe' 

>>> Print(s) 

I love Python， and 

YOU ?hehe 

a # 奖 六“，” 

['I Love python;, and\nyou\t?hehe'] 

>>> s.split(™"™, ™) 非 下 全 

['I love python', ‘and\nyou\t?hehe'] 

>>> 


当 分 阳 符 不 在 池 符 早 中 时 ， 会 整体 转化 成 一 个 list。 例 如 : 


>>> 号 -SPDLIt TI) 
[ 工 -”， "lJove, Pythons and’', You ， ?hehe j 
> 


当 分 隔 从 省 略 时 ， 会 按 所 有 的 分 隐 符 号 分 割 ， 包 括 \n( 换 行 ) 和 \t(tab 缩 进 ) 等 。 
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(11) Split 的 逆 运 算 : join。 例 如 : 
SeP' ,join(1List) 


(12) 列表 和 元 组 之 间 是 可 以 相互 转化 的 : list(tuple)、tuple(list)。 

元 组 的 操作 速度 比 列表 快 ， 列 表 可 以 改变 ， 元 组 不 可 变 ， 可 以 将 列表 转化 为 元 组 “ 写 
保护 ”; 字典 的 key 也 要 求 不 可 变 ， 所 以 元 组 可 以 作为 字典 的 key， 但 元 素 不 能 有 重复 。 

(13) 字符 串 检 测 开 头 和 结尾 : string.endswith('str7)、string.startswith('str”)。 

例如 : 


>>> file = 'F:\\data\\catering dish profit.xls'" 
>>> file.endswith('xls') # 判 断 file 是 否 以 xl1s 结尾 
le 

> 之 > 

>>> url = "http:/ /www. li-nNnuc.com’ 

>>> url.startswith('https') # 判 断 url 是 否 以 https 开头 
False 

>>> 


(14) S.replace( 被 查找 词 ， 蔡 换 词 ): 查找 与 蔡 换 。 例 如 : 


>>> S='I love python, do You love python?' 
>>> S.replace('python’','R') 
‘I love R, do you love R2" 


> 


(15) re.sub( 被 替 词 ， 替 换 词 ， 替换 域 , flags=re.IGNORECASE): 查找 与 替换 ， 忽 略 大 小 
与 。 例 如 : 


>>> import re # 守 入 正则 模块 

>>> S='I love Python do You love python?' 

>>> re.sub{('python','R',Ss) # 在 S 中 用 R 替换 python 

‘I love Python, do you love R?" 

>>> re.subl('python','R',S, flags=re.IGNORECASE) # 蔡 换 时 忽略 大 小 写 
‘I love 有， do You love 及 >? 

>>> re.subl(l'python','R',S[0:1S5], flags=re.IGNORECASE) 

“TT Love RR 


> 


(16) Python 命名 规范 。 
dQ) 包 和 名、 模块 名 、 局 部 变量 名 、 了 函数 名 : 全 小 写 + 下 划 线 式 驼 峰 。 
如 : this is var。 


书 ”全 局 变量 : 全 大 写 + 下 划 线 式 驼 峰 。 
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如 : GLOBAL VAR. 

@@) 类 名 : 首 字母 大 写 式 驼峰 。 

uN: ClassName()。 

由 天 于 下 划 线 。 

以 单 下 划 线 开头 ， 是 弱 内 部 使 用 标识 ，from M import * 时 ， 将 不 会 导入 该 对 象 。 
以 双 下 划 线 开头 的 变量 名 ， 主 要 用 于 类 内 部 标识 类 私有 ， 不 能 直接 访问 。 

双 下 划 线 开头 且 双 下 划 线 结尾 的 命名 方法 尽量 不 要 用 ， 这 是 标识 。 


练 习 


(1) 已 知 : a=2,b=3， 要 求 : 将 a 和 bb 的 值 调 换 ， 并 打印 结果 。 
(2) 已 知 : a=250,b = '250:， 要 求 : 前 述 a 和 b 所 引用 的 对 象 的 区 别 。 
(3) 计算 : 100 除 以 3 得 到 的 商 、 余 数 分 别 是 多 少 ? 如 果 保 留 3 为 小 数 ， 则 结果 将 是 


(4) 请 解释 如 下 现象 : 


>>> 工人 UDP ID 2) 
| 
> 


(5) 精确 计算 : 2 除 以 6。 要 求 : 结果 以 分 数 形式 (1/3) 输 出 。 

(6) 要 求 : 在 print0 里 面 将 “明月 几时 有 ”和 “把 酒 问 青 天 ”两 句 分 两 行 输入 ， 但 输 
出 结 末 时 在 一 行 。 

(7) 编写 程序 ， 要 求 输 入 姓名 和 年 龄 ， 并 且 将 年 龄 加 10 之 后 ， 与 姓名 一 起 输出 。 

(8) 将 字符 串 “map” 的 字符 顺序 倒转 为 “pam”。 

(9) 让 用 户 输入 一 个 单词 ， 并 显示 这 个 单词 的 长 度 。 

(10) 已 知 字符 串 : “Python is a widely used high-level，general-purpose，interpreted， 
dynamic programming language.” 要 求 : 将 字符 串 中 每 个 单词 的 第 一 个 字母 都 变 成 大 写字 
母 ， 最 终 样式 如 下 : 


"Python Is A Widely Used High-level, General-purpose, Interpreted, 

Dynamic Programming Language .， 

(11) 已 知 列表 : [“python”,“java”,，“c”,“c++”,“]isp”]。 要求 :用 切片 方式 将 此 列表 中 的 
第 1、3、5 项 取出 来 。 

(12) 生成 一 个 由 100 以 内 能 够 被 $ 整除 的 数组 成 的 列表 ， 然 后 将 该 列表 的 数字 从 大 到 
小 排序 。 


mH Python 数据 分 析 基 础 


(13) 已 知 两 个 列表 : citys = [“suzhou”, “shanghai”, “hangzhou”, “nanjing”]，codes = 
[“0512” “021” “0571”“025"]。 要 求 : 创建 一 个 字典 ， 以 citys 中 的 元 素 为 key， 以 codes 
中 有 的 元 素 为 value。 

(14) 己 知 : 列表 1st1=[1,2,3,4,5,6]，1st2=[“a”,“b”,“c”,“d”]。 要 求 : 以 lstl 的 元 素 为 key， 
以 1st2 的 元 素 为 value 建立 一 个 字典 ， 并 打印 输出 。 


48. 
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从 本 章 开 始 ， 不 再 一 行 一 行 地 执行 代码 ， 而 是 将 整 段 代码 写 完 后 再 执行 。 本 章 暂 时 还 
使 用 形态 便捷 的 Python 3.5。 

从 开始 某 单 里 打开 Python 的 IDLE， 在 弹出 的 Shell 窗口 中 选择 File 一 New File 玉音 
命令 ， 即 弹出 一 个 空白 的 文本 框 窗 口 ， 如 图 3-1 所 示 。 


| oo python 3,5,1 Shell | 口 ia Untitled 
Fila | Edit Sheall Dabug ptioms Wnd ow Help File Edt Format Rurn Dptions Wndovw Hel PP 


New File Ctrl+IM 9 


IIPen Ctrl+e) a a 
Open Nodule.. 中 此 + If 3 
Recent Filaes Ps re a pps | 
Class Browser Ak+C ( 这 里 直接 与 程 厅 代 后 | 
path Browser “ 本 

区 
SawE Ctrl+s ~ = 本 


Save 起 5.., Ctrl+Shrdt+s 
Save Copy A5... B+Shitt+s 


Brint Wirndeawy ItFr| 十 口 


Close Alt+F4d 
Exit Ctr|ey 


图 3-1 在 IDLE 中 新 建文 件 


利用 第 2 章 中 的 例 2-5 字 和 典 案 例 ， 一 次 性 地 把 代码 与 完 ， 并 保存 在 指定 的 目录 下 ， 命 
名 为 testl.py， 后 级 默认 是 .py。 然 后 选择 菜单 栏 中 的 Run 一 Run Module 命令 即 可 ， 或 者 
直接 按 下 快捷 刍 F5， 即 会 弹出 运行 结果 窗口 。 具 体 情 况 如 图 3-2 所 示 。 


[总 test1.py - C/Users/yubg/AppData/Local/Programs/Python/Python35-3. 一 口 A 


File Edit Fermat Run Qptions Window Help 
# codine:TTIF=8 本 


name=[ Ben , one ’ , Jhon ,Jerry , Fr vy , Jan , Wone | 
tel= [8801, B802, B8603, en :B605., B606, 6607, B608] 
Tellbook={} # 创 建 一 字典 
for 1 in range i 

dl=°  {} .fornat (name [i]’; # 从 name 中 职 一 个 许 韦 

d2=" [} ,format (tel [i]) 下 从 te1 中 到 一 个 电话 

Tellbook [dl]=d2 # 肝 把 d2 这 个 瑟 码 赋 值 给 字典 Tellbook 的 dil 社 
print (Tellbook) 


” 


Ln:9 Col: 33 | 


Python 3.6.1 tv3.6.1:37a07cee5969, Dec 6 2015, 01:38: 48) [SC v.1900 32 bit 《In = 


七 已 Li | on win32 


>3Re "copyright”, “credits” or “licenset})” for more information. 
四 “RsTART， 全 人 PY = 
人 Jam : "6607 ， "Wong 6608 ， Iwy : “ 66606” ， 6605 ,， "Jerry : "6604° 


Thon : "B03, Ben : "01’, Tone’: "S602 } 
> 


图 3-2 IDLE 新 建文 件 界面 及 程序 运行 结果 


当 写 多 行 测 试 代码 时 ， 会 经 常 需 要 注释 挥 大 段 代 码 ， 这 时 候 不 再 是 每 行 洪 加 #， 而 是 
在 注释 的 代码 段 第 一 行 前 添加 一 个 空 行 ， 写 上 三 个 单 引 号 (”’) 或 者 三 个 双 引 号 ; 再 在 段 尾 
添加 一 行 ， 也 写 上 三 个 单 引 号 或 者 三 个 双 引 号 ， 也 就 是 将 要 注释 的 代码 段 放 在 两 个 三 引号 


(so0N. 
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之 间 。 当 然 ， 也 可 以 将 要 注释 的 代码 段 选 中 ， 按 下 F3 键 即 可 ; 当 要 取消 注释 时 ， 只 须 选 

中 要 取消 注释 的 代码 段 ， 按 下 F4 键 即 可 。 

天 注意 ; ”在 Python 中 ， 可 以 在 各 种 编码 间 相 互 转 换 ， 有 时 因为 编码 的 问题 ， 会 出 现 
乱码 。 如 果 在 “.py” 文 件 中 使 用 了 中 文 ， 则 需要 在 文件 的 第 一 行使 用 如 下 
语句 指定 字符 编码 集 : # * coding:UTF-8 * 。 


关于 代码 操作 快捷 键 ， 应 牢记 如 下 操作 规则 。 
(1) 当 有 多 行 代码 需要 整体 缩 进 时 ， 选 中 代码 ， 缩 进 用 Ctrl+]， 取 消 缩 进 用 Ctrl+[。 
(2) 注释 多 行 代码 除了 使 用 三 引号 “ 包 起 来 ”的 办 法 ， 还 可 以 选中 要 注释 的 多 行 代 
码 ， 按 下 Alt+t3， 取 消 注 释 则 按 下 Alt+4。 
常用 的 快捷 键 见 表 3-1。 
表 3-1 常用 的 快捷 键 


快捷 键 功能 说 明 
Alt+P 浏览 上 一 条 命令 
AltHN 浏览 下 一 条 命令 
Ctrl+F6 重启 Shell 
AltH/ 自动 补 全 曾 出 现 过 的 命令 单词 
Ctrl+] 缩 进 代码 块 
Ctrl+[ 取消 代码 块 缩 进 
Alt+3 注释 代码 块 
Alt+4 取消 代码 块 注释 


当 Python 的 IDLE 中 代码 字体 偏 小 时 ， 可 以 在 菜单 栏 中 选择 Options 一 Configure 
IDLE 命令 ,在 弹出 的 设置 对 话 框 中 设置 字体 和 大 小 ， 如 图 3-3 所 示 。 


ptiom 机 Indow 器 口 
bd Dee 站 5015。 01:3B:4E) [Nec ww 二 9 站 让 a2 bit [In 


bb [= 
tel 了 1 2 pp a 旺 
Trra “EcopdenE ， adita or licamsed)” Tor For6 lnrormtlom, 
了 


ex | Appl | canca | Hep 


3-3 IDLE 界面 参数 设置 
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3.1 流程 控制 


3.1.1 if-else 


if-else 分 支 语 句 结构 的 特点 是 当 条 件 condition 满足 时 ， 执 行 if 下 的 语句 块 ， 当 条 件 


condition 不 满足 时 ， 执 行 else 下 的 语句 块 。if-else 的 语法 结构 如 下 : 


if conditon: 
statement1 
lSe: 


statement2 


if-else 需要 注意 的 格式 问题 : 

@ 在 让 和 else 行 尾 均 要 加 冒号 “:”。 

@ if 和 else 下 的 每 条 语句 都 要 用 缩 进 ， 即 显示 逻辑 层次 关系 ， 缩 进 4 个 空格 或 者 一 
个 Tab 键 ，Tab 键 和 和 至 格 不 能 混用 ， 以 免 程 序 出 错 。 

@ 每 个 语句 各 占 一 行 。 

if-else 条 件 语句 具有 多 种 结构 形式 。 

(1) 只 有 一 个 条 件 和 单一 的 可 能 性 操作 时 ， 如 果 满 足 条 件 就 执行 第 二 行 。 例 如 : 

工 一 了 

if i>1: 


PEINEY YO are FLighE! nD) 


(2) 妆 根 据 单 一 条 件 有 两 种 不 同 操作 时 ， 可 以 使 用 else， 当 条 件 满 足 时 执行 f 下 的 语 


句 块 ， 条 件 不 满足 时 执行 else 下 的 语句 块 ，else 要 与 让 对齐。 例如 : 


i=3 #Or i=0 
机 

ne 
el]lSsSe: 


IE 
(3) ”如果 还 有 更 多 的 条 件 ， 可 以 使 用 elif。 例 如 : 


I 
人 
局 本 于 十 ==]: 
ep 
else: 


Een ui De i A 
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3.1.2 for 循环 


使 用 for var in field:， 可 以 枚 举 field 中 的 所 有 元 素 var， 并 进行 循环 处 理 。 
(1) for 循环 语句 常用 于 遍历 列表 ， 基 本 人 句 型 如 下 : 
or 1 i dl 


print (i,end="',") 


a 3 4， 
和 >>> 


上 面 的 代码 意思 是 将 列表 [2,3,4] 中 的 每 一 个 元 素 输出 。 在 print 语句 中 加 上 end=“,， 表 
示 将 结果 显示 在 一 行 中 ， 用 喜 号 (,) 分 隔 开 。 
(2) for 循环 可 以 帮助 处 理 字 符 串 。 假 如 想 分 别 输出 字符 串 中 的 每 一 个 字母 ， 则 : 


>>> for 1 Im abc': 


BELnt |.) 


> 


(3) for 经 弟 和 range 内 置 函 数 配 合 在 一 起 使 用 。 例 如 : 


>>> for 1 in range (3): 


Te Ti 


”>> 


(4) for 循环 可 以 用 来 生成 列表 。 如 用 range(3) 来 生成 列表 [0,1,2]， 然 后 使 用 循环 来 计 
宇文 时 于 方 ， 放 入 列表 中 : 

>>> [X**2 for x in range (3)] 

[D0D; 1, 4] 

>>> 


($5) for 与 f 同 用 ， 表 示 按 条 件 来 生成 列表 。 如 生成 100 以 内 侦 数 平方 构成 的 列表 : 


>>> [X**2 for X in range (10)} if x%2==0] 
[0O, 4, 16, 36, 64] 
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> 之 之 


3.1.3 while 御 环 


while 语句 用 于 循环 执行 程序 ， 即 在 茶 个 条 件 下 循环 执行 茶 段 程序 ， 以 处 理 需 要 重复 
处 理 的 相同 任务 ， 直 到 不 满足 循环 条 件 时 终止 。 

其 基本 形式 如 下 : 

while < 判断 每 件 > : 

< 执行 语句 > 

执行 语句 可 以 是 单个 语句 或 语句 块 。 判 断 条 件 可 以 是 任何 表达 式 ， 任 何 非 零 或 非 空 

Cul) 的 值 均 为 True。 当 判断 条 件 为 假 False 时 ， 循 环 结 束 。 
【 例 3-1】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 
i1=0 
while i<D: 


rind mis Te Tate(iy) # 将 i 转化 为 字符 型 才能 用 “+” 连 接 输 出 
i+=1] # 相 当 于 i=i+1 


将 以 上 代码 保存 ， 并 按 FS 键 运行 ， 输 出 结果 如 下 : 
This 1LS 
This 1is 
This 1s8 
This is 


This 1S 


in 


This 1LS 
>>> 

与 while 语句 相关 的 还 有 男 外 两 个 重要 的 命令 ， 即 continue 和 break， 用 来 跳 过 循环 。 
continue 用 于 跳 过 该 这 和 人 循环 继 续 执 行 下 一 个 循环 ， 而 break 则 是 完全 退出 while 循环 。 
此 外 ，“ 判 断 条 件 ” 还 可 以 是 个 党 数值， 表示 循环 必定 成 并 。 


3.1.4 continue 和 break 


在 循环 执行 过 程 中 ， 如 果 过 到 continue， 则 跳 过 这 一 次 执行 ， 继 续 进 行 下 一 次 的 循环 
操作 。 如 共有 10 次 循环 ， 运 行 到 第 8 次 时 过 到 了 continue， 那 么 第 8 次 循环 马上 中 止 ， 后 
面 的 代码 不 再 执行 ， 继 续 开 始 第 9 次 循环 。 

在 循环 执行 过 程 中 ， 只 要 过 到 break， 就 停止 循环 ， 跳 出 整个 while 循环 。 

【 例 3-2】 在 Python 的 IDLE 编辑 器 中 写 入 以 下 代码 : 


# continue 和 pbreak 的 用 法 
# 1. 将 小 于 10 的 偶数 输出 
1 = 三 荆 


while i < 10: 


1 二 = 1 
if is2 > 0:  # 非 偶 数 时 跳 过 输出 
continue 


print (1) # 输出 个 数 2、4、6、8、10 


# 2. 输出 小 于 等 于 10 的 正 整 数 
j = 1 
while 1: # 循环 条 件 为 1 必定 成 立 
print (j) # 输出 1~10 
二 于 
ifj>10: # 当 jj 大 于 10 时 跳出 循环 
break 


输出 结果 如 下 : 


I 0 iP 


上 
J 
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在 使 用 continue 编写 循环 语句 时 ， 要 避免 误 入 死 循 环 ， 如 : 


>>> i=1 
>>> While i<]10: 
if£ 工务 2 == 
continue 
print (1) 


i+=1 
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本 例 欲 输出 小 于 10 的 奇数 ， 但 进入 了 死 循 环 。 因 为 当 i=2 时 被 整除 ， 于 是 进入 
continue， 后 面 的 Print 和 it=1 都 不 再 执行 ， 但 此 时 的 i 依然 是 等 于 2， 所 以 继续 进入 
二 2， 如 此 循环 往复 ， 只 有 强行 终止 才能 退出 。 

对 上 面 的 代码 稍 做 修改 即 可 正音 运行 了 : 


>>> 1i=1] 


>>> while 1I<10 : 


if i$%2 == 0: 
工 十 = 
continue 

Print (1) 

i 二 + 二 =] 


I = ON 二 


> 


3.2 遇 万 


如 果 给 定 一 个 list 或 tuple， 我 们 可 以 通过 for 循环 来 输出 list 或 tuple 中 的 每 一 个 元 
素 ， 这 个 过 程 称 为 表 历 。 这 种 遍历 也 称 为 迄 代 (Iteration)。 在 Python 中 ， 友 代 是 通过 for in 


3.2.1 range() 函 数 


可 以 用 range0 函 数 生 成 一 个 列表 : 
>>> for 1 in range (5): 


print (i,end=",") 


0,1,2,3,4, 
>>> 


range(5) 中 的 参数 5 代表 从 0 到 4 的 一 个 长 度 为 5 的 序列 。Python 中 的 索引 序列 一 般 
都 是 左 闭 右 开 的 ， 即 不 包含 右边 的 数据 。 此 台历 也 可 以 改写 成 一 句 : 


二 
[2 
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当然 ， 可 以 目 定 义 需 要 的 起 始点 和 结束 后 : 


>>> list (range (1,5)) # 代 表 从 1 到 5， 不 包含 5 
La | 
>>> 


说 明 : 在 以 前 的 版 本 中 ，range0 通 数 直接 返回 一 个 列表 ， 但 在 3.5 版 本 中 ，range0 
作为 一 个 容器 存在 。 当 需要 将 它 作 为 列表 时 ， 只 要 用 list 转化 一 下 即 可 ; 如 
采 需 要 将 它 作为 元 组 ， 只 要 用 tuple 转化 一 下 即 可 。 例 如 : 


>>> a=range (5S) 
>>> list(a) 

EO 2 
>>> tuple {a) 
疏导 
>>> 


定义 一 个 从 5 开始 到 100 结束 的 列表 : 


>>> JistB =[i for i in range (5,100)] 

>>> print (11stB) 

Lor or To Ooo TO TL T2013 TI To 1706 TT7 T7919 20 21 2 29 
2 DA DP 297 S07 3 S20 So or Op nA dl 
27437 dd Ddo. dT dd Io Or ol on Sd od nonor mr bo 
SD ol G2 0774 Bo Gor BI OD Bor oD ho Veo Ta Td To A 7 
TO .7179 B00 0L 27 Br 4 Dor Dor BI Ba D9 S90 SIL 92 53 44 09 
96, 97, 98, 99] 

>>> 


range() 汞 数 还 可 以 定义 步 长 ， 下 面 定义 一 个 从 1 开始 到 30 结束 ， 步 长 为 3 的 列表 : 


pIInt('rPangs (i a0 3 liotirongeoll 30 3))) 

ve 30 3) Tle de 7 Ib. 13, 16. 19 22,. 25 D8] 
~ sto = Feor DI TANngell 203] 

>>> print (1]istcC) 

Ls de Ee LOY T3337 Loe LW wa Hy | 


range0 〇 函数 也 可 以 倒序 ， 格 式 为 range(a,b,-1)，a 要 大 于 b。 例 如 : 


>>>11ist (range (Ss, 0, -1)) 
[Ss 

>>>119t (rande(s 0 . 7)y 和 长 为 过 
5. 3 1 

> 
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【 例 3-3】 对 array 进行 排序 ， 在 Python 的 IDLE 中 输入 下 面 的 代码 : 


arrav 下 [下 
for 1 in range (len{arrav} 一 1, 0 一) : 
rT 
for ] in randge (0, 1): 
print(j ,end="','") 
if arrav[j] > arrav[j] + 1]: 
array[JjJ}]j, array[j] + 1] = array[] + 1], arrayl[]] 


Print (array) 


分 析 这 上 段 代码 : 
行 1]: array = [1, 2, 5, 3, 6, 7, 4]， 是 一 个 乱 序 的 list。 
行 2: for i in range(len(array) - 1, 0, -1):， 巷 换 后 就 成 为 range(6,0,-1)， 意 思 是 从 6 到 


0， 步 长 为 -1， 随 后 把 这 些 值 循环 赋 给 i，i 的 值 将 会 是 6, 5, 4, 3, 2, 1。 


行 4: forj in range(0, 让， 这 是 一 个 循环 赋 信 给 j 的 语句 ，j 的 全 将 会 是 [0, 1, 2, 3, 4, 5][0， 


L 2 3 4][0, LL 2 3][0, ] ， 2][0, 1]。 


那么 上 边 两 个 循环 嵌 套 起 来 将 会 是 : 


1 = 
| ee 


1 
a 
1 
sh ee 
1 
有 
二 


行 6: if array[j] > array[j + 1]， 判 断 array 的 前 后 两 个 元 了 系 大 小 。 
行 7: array[j], array[j + 1] = array[j + 1], array[i， 葵 换 赋值 。 
本 例 执行 的 结果 如 下 : 


6 

5 

0 本 2 3 4 

oT ee 

1 

a | 

Si I 


其 实 ， 使 用 sort0 函 数 束 能 完成 以 上 排序 问题 : 
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>» arrav = [1 2. Sy 3 be 71. 4 
>>> array.sort() 

>>> array 

| 

>>> 


【 例 3-4】 求 100 到 1000 的 水 仙 花 数 。 若 二 a^3+b^3+c^3， 则 称 站 为 水 仙 花 数 。 


>>> for 1 In range (100,1000): 
ge = 1 名 10 
shi= i //10 %10 
bai= i // 100 


1 全 全 二 i**3TDAaL**3 二 = 1 
Print (1) 
153 
人 
pl 
407 
> 之 之 


3.2.2 ”列表 与 元 组 的 遍历 


如 果 需 要 遍历 一 个 数字 序列 ， 可 以 使 用 Python 中 内 建 的 函数 range()。 
例如 ， 下 面授 历 一 个 列表 test_list: 
人 > 人 > 人 > test list =[1y3,;4,; "Hongten jy3,623, hello'zl] 


>>> for 1 in range (len{test list)): 


printtest list[1] -end= TT,") 


1 4 Hondten 3d 0 2 Del | 2 
>>> 


元 组 的 远 历 : 


>>> tup=('abd', "ll]23') 
>>> for 1 in range (len (tup)): 


print (tup[i]) 
abd 


1 


> 
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二 元 元 组 的 换 历 : 
for 1 in range (len (user)): 


for ] in range (len (user}): 


printili Userl[” 二 攻关 二) 二 |]I ate(l +t |= ser[i]l]]) 


册 如 : 


user={(1,2), (3,4)) 
for i in range (len (user)): 
for ] in range {len (user))}): 


print("'user["+str{(i}+"] [+str{(j)+]=',user[i] [j]) 


输出 : 


user[0][0]j]= 1 
1 == 
user[l1l][0]= 3 
user[l|][l1]j= 4 


多 维 元 组 需要 稍微 改动 : 


for 1 in range (len (user)): 


for ] in range (len (user[i])): 


Brintt"User[ ete(tly Tt]1[I Fate(tIyt I=" User[lLil[lyl) 


例如 : 


user=( (1,2, 3 4)，, (3 yr 
for 1 In range (len (user))}): 
for ] in range (len (user[i]}))}): 


DELREL oer ee Et el 


输出 : 


user[0][0]= 
user[0][1]= 
user[0] [2]= 
user[0][3|]= 
user[l1][0]= 
userl[lll] 
user[l1] [2]= 
user[ll|][3]j= 
user[z2][0 
user[2] [1 


上 
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3.3 了 茹 效 
3.3.1 函数 的 定义 


在 Python 中 ， 了 函数 定义 的 基本 形式 如 下 : 


def function (params): 
block 


return expression/value 


说 明 如 下 。 

(1) 在 Python 中 采用 def 关键 字 进 行 函数 的 定义 ， 不 用 指定 返回 值 的 类 型 ， 另 外 注意 
def 行 尾 的 冒号 “:” 不 能 丢 ; 函数 的 命名 一 般 首 字母 不 要 大 写 ， 以 区 别 后 面 讲 到 的 类 。 

(2) 国 数 参数 params 可 以 是 零 个 、 一 个 或 者 多 个 ， 同 样 ， 函 数 参 数 也 不 用 指定 参数 类 
型 ， 因 为 在 Python 中 ， 变 量 都 是 弱 类 型 ，Python 会 目 动 根据 值 来 维护 其 类 型 。 

(3) return 语句 是 可 选 的 ， 它 可 以 在 函数 体内 的 任何 地 方 出 现 ， 表 示 函 数 调 用 执行 到 
此 结束 ; 如 果 没 有 return 语句 ， 会 自动 返回 NONE， 如 果 有 return 语句 ， 但 return 后 面 没 
有 接 表 达 式 或 者 值 ， 则 也 返回 NONE。 返 回 的 值 就 是 输出 的 功能 ，return 可 以 返回 多 个 
值 ， 如 return a,b,c， 以 逗号 分 隔 ， 相 当 于 返回 一 个 tuple( 定 值 表 )， 相 当 于 return (ab,c)。 

应 注意 ， 函 数 体 内 部 的 语句 在 执行 时 ， 一 旦 执行 到 return 时 ， 函 数 就 执行 完毕 ， 并 将 
结果 返回 。 

因此 ， 函 数 内 部 通过 条 件 判 断 和 循环 可 以 实现 非常 复杂 的 逻辑 。 如 果 没 有 return 话 
句 ， 图 数 执行 完毕 后 也 会 返回 结果 ， 只 是 结果 为 None。return None 可 以 人 简写 为 return。 

(4) 一 般 在 block 中 还 包含 有 一 个 注释 体 一 一 函数 文档 ， 功 能 是 解释 这 个 函数 的 功 
用 ， 用 两 个 三 引号 包围 起 来 ， 放 在 block 的 最 前 面 ， 也 是 为 了 方便 能 够 用 help 函数 查询 。 

【 例 3-S】 在 Python 的 IDLE 中 输入 以 下 代码 : 


def printHello'(): 
print('Hello') 


def readNum(): 
for i in range {0,5): 
print (1) 


return 


def add(a,b}): 


return a+t+b 


print (printHello{()) 


Print (readNumt{)) 
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print (add (1,2)) 


输出 结果 如 下 : 


人 > 人 > 人 > 
Hello 


None 


3.3.2 ”函数 的 使 用 


在 Python 中 ， 也 数 的 使 用 有 严格 的 规定 ， 函 数 不 人 允许 前 同 引 用 ， 即 孙 数 应 当 定 义 在 
前 ， 使 用 在 后 。 
例如 


print (add (1,2)) 
def add (a,b}): 
return at+b 


程序 的 执行 结果 如 下 : 


> 


md 


Traceback {most recent call last): 
File "“"C:/Users/vyubg/AppData/Local/Programs/Python/Python35-32/test5.py", 
line 1, in <module> 
print (add (1,2)) 
NameError: name ‘add'" is not defined 


> 之 之 
从 报错 中 可 以 看 出 ， 命 名 为 add 的 函数 未 进行 定义 。 所 以 在 调用 茶 个 函数 时 ， 必 须 确 
保 此 函数 定义 在 调用 之 前 ， 即 先 定义 函数 ， 然 后 再 调用 。 上 述 程序 可 修改 如 下 : 


def add (已 ) : 
return at+b 
print (add (1,2)) 
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3.3.3” 形 参 和 实 参 


数 


加 


形 参 全 称 是 形式 参数 ， 在 用 def 定义 函数 时 ， 函 数 名 后 面 括号 里 的 变量 称 作 形式 参 
在 调用 函数 时 提供 的 值 或 者 变量 称 作 实际 参数 ， 实 际 参数 简称 为 实 参 。 

【 例 3-6】 形 参 和 实 参 : 

# 这 里 的 a 和 Pb 了 豆 是 形 参 


def aaq(ayD) : 
return at+b 


# 这 里 的 1 和 2 是 实 参 
add (1,2) 


# 这 里 的 x 和 vy 是 实 参 
区 三 2 

y=3 

add (x,y) 


3.3.4 ”参数 的 传递 和 改变 


在 大 多 数 高 级 语言 中 ， 对 参数 传递 方式 的 理解 一 直 是 个 难点 和 重点 ， 因 为 它 理解 起 来 


并 不 是 那么 直观 明了 。 下 面 我 们 来 探讨 一 下 Python 中 函数 的 参数 传递 问题 。 


在 讨论 此 问题 之 前 ， 需 要 明确 的 是 ， 在 Python 中 ， 一 切 丝 对 象 ， 包 括 我 们 先前 用 到 的 


字符 串 癌 量 、 整 型 音量 等 都 是 对 象 ， 变 量 中 存放 的 是 对 象 的 引用 。 验 证 如 下 : 


>>>print (id (5)) 
1482891232 

>>>print (id('python’')) 
13842280 

A 

>>>print (id'(x)) 
14828971184 
>>>y="hello' 
>>DFINntIidly) 
57256960 


.6sA\， 
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先 解释 一 下 函数 id0 的 作用 。id(object) 返 回 对 象 object 在 其 生命 周期 内 位 于 内 存 中 的 
地 址 ，id 函数 的 参数 类 型 是 一 个 对 象 ， 因 此 ， 由 于 语句 id(5) 没 有 报错 ， 就 可 以 知道 5 在 这 
里 是 一 个 对 象 。 又 如 : 

和 一 之 

print{id(2)) 

printi{idi(x)) 

y='hello' 

print {id('hello")) 

在 ED 

其 运行 结 雪 如 下 : 


之 之 
l1683699488 
1683699488 
D8192800 
58192800 

> 之 之 


从 结果 可 以 看 出 ，id(x) 和 id(2) 的 值 是 一 样 的 ，id(y) 和 id('hello7) 的 值 也 是 一 样 的 。 

在 Python 中 ， 一 切 皆 对 象 。 像 2、'‘hello’* 这 样 的 值 都 是 对 象 ， 只 不 过 2 是 一 个 整 型 对 
象 ， 而 ‘hello’ 是 一 个 字符 串 对 象 。 上 面 的 x=2， 在 Python 中 实际 的 处 理 过 程 是 这 样 的 : 先 
申请 一 段 内 存 分 配给 一 个 整 型 对 象 来 存储 整 型 值 2， 然 后 让 变量 x 去 指向 这 个 对 象 ， 实 际 
上 就 是 指 同 这 段 内 存 。 而 id(2) 和 id(x) 的 结果 一 样 ， 说 明 id 函数 在 作用 于 变量 时 ， 其 返回 
的 是 变量 指向 的 对 象 的 地 址 。 因 为 变量 也 是 对 象 ， 所 以 在 这 里 可 以 将 x 看 成 是 对 象 2 的 一 
个 引用 。 

下 和 面 册 看 个 例子 : 

区 一 之 

print {idi(ix)})} 

y=2 

print (id(y)) 

s="hello'’ 

printt{idt(s)}) 

IE = 

print{id(t)}) 

其 运行 结果 如 下 : 


> 这 之 
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1683699488 
1683699488 
58586016 
8586016 
>>> 


从 运行 结果 可 以 看 到 ，id(x) 和 id(y) 的 结果 是 相同 的 ，id(s) 和 id(t) 的 结果 也 是 相同 的 。 
这 说 明 x 和 yy 指向 的 是 同一 对 象 ， 而 t 和 s 也 是 指 辣 同一 对 和 象 。x=2 这 人 句 让 变量 x 指 同 了 
int 类 型 的 对 象 2， 而 y=2 这 人 句 执 行 时 ， 并 不 重新 为 2 分 配 空间 ， 而 是 让 yy 直接 指向 了 已 经 
存在 的 int 类 型 的 对 象 2。 这 个 很 好 理解 ， 因 为 本 身 只 是 想 给 y 赋 一 个 值 2， 而 在 内 存 中 已 
经 存在 了 这 样 一 个 int 类 型 的 对 象 2， 所 以 就 直接 让 y 指向 了 已 经 存在 的 对 象 。 这 样 一 来 ， 
不 仅 能 达到 目的 ， 还 能 节约 内 存 空 间 。{t=s 这 人 句 变量 互相 赋值 ， 也 相当 于 是 让 t 指向 了 已 经 
存在 的 字符 串 类 型 的 对 象 ‘hello’。 
下 面 就 来 讨论 一 下 函数 的 参数 传递 和 改变 这 个 问题 。 
在 Python 中 ， 参 数 传递 采用 的 是 值 传 递 。 先 看 个 例子 : 
def modifyl (m,K): 
m=2 
KR=[4,5,6] 


return 


def modify2 (m,K): 
m=2 
K[0]=0 


return 


n=100 

Le | | 
modifyl (n,L) 
print{(n) 
Print {LL) 
modifvy2z (ny 工 ) 
Brint {n) 


print {L) 
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从 结果 可 以 看 出 ， 执 行 modifyl10 之 后 ，n 和 L 都 没有 发 生 任 何 改 变 ; 执行 modify20 
后 ，n 还 是 没有 改变 , 但 L 发 生 了 改变 。 因 为 在 Python 中 ， 参 数 传递 采用 的 是 值 传 递 方 
式 ， 在 执行 函数 modifyl 时 ， 先 获取 ma 和 EL 的 id0 值 ， 然 后 为 形 参 m 和 分 配 空间 ， 让 m 
和 K 分 别 指向 对 象 100 和 对 象 [1,2,3]。m=2 这 名 让 m 重新 指向 对 象 2， 而 K=[4,5,6] 这 人 句 让 
K 重新 指 癌 对 象 [4,$,6]。 这 种 改变 并 不 会 影响 到 实 参 n 和 工 ， 上 所 以 在 执行 modifyl 之 后 , n 
和 工 没有 发 生 任何 改变 。 在 执行 函数 modify2 时 ， 同 理 ， 让 m 和 KK 分 别 指向 对 象 2 和 对 
象 [1,2,3]， 然 而 K[0]=0 让 K[0] 重 新 指向 了 对 象 0( 注 意 这 里 K 和 工 指向 的 是 同一 段 内 存 )， 
所 以 对 K 指 回 的 内 存 数据 进行 的 任何 改变 也 会 影响 到 L， 因 此 在 执行 modify2 后 ，L 发 生 
于 改 世 ， 


3.3.5 ”变量 的 作用 域 


在 Python 中 ， 也 存在 作用 域 的 问题 ， 会 为 每 个 层次 生成 一 个 从 号 表 ， 里 层 能 调用 外 层 
中 的 变量 ， 而 外 层 不 能 调用 里 层 中 的 变量 ， 并 且 当 外 层 和 里 层 有 同名 变量 时 ， 外 层 变 量 会 
锌 里 层 变 量 屏 蔽 掉 。 

【 例 3-7】 不 同 作用 域 中 的 变量 : 


def functiont(): 
X=2 
count=2 
while count>0: 
X=3 
print (x) 


count -= 1 


function'() 


运行 结果 如 下 : 


> 


在 函数 function 中 ，while 循环 的 外 部 和 内 部 都 有 变量 x， 此 时 while 循环 外 部 的 变量 
x 会 被 屏蔽 挥 。 注 意 在 函数 内 部 定义 的 变量 作用 域 部 仅 限于 函数 内 部 ， 在 函数 外 部 是 不 能 
够 调用 的 ， 一 般 称 这 种 变量 为 局 部 变量 。 

还 有 一 种 变量 叫 作 全 局 变量 ， 它 是 在 函数 外 部 定义 的 ， 作 用 域 是 整个 程序 。 全 局 变量 
可 以 直接 在 函数 内 部 应 用 ， 但 是 ， 如 末 要 在 函数 内 部 改变 全 局 变量 ， 几 须 使 用 global 关键 
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字 进 行 声 明 。 
【 例 3-8】 全 局 变量 : 
六 二 2 


def funil](): 


Print (x) 


eh 
global x # global 语句 用 于 声明 一 个 或 多 个 全 局 变量 
区 二 3 


print (x) 


funil) 
funz() 


Print {x) 


运行 结果 如 下 : 


LO GG) ho 


> 之 之 


函数 def 定义 的 变量 只 能 在 def 的 内 部 使 用 ， 不 能 在 函数 外 部 使 用 。 一 个 在 def 之 外 被 
赋值 的 变量 X 与 一 个 在 def 内 部 被 赋值 的 变量 X 是 完全 不 同 的 两 个 变量 。Python 变量 可 以 
分 为 本 地 (def 内 部 ， 除 非 用 global 声明 )、 全 局 (模块 内 部 ) 和 内 置 ( 预 定义 的 _ builtin_ 模 
块 )。 全 局 声明 global 会 将 变量 名 映射 到 模 英 文件 凡 部 的 作用 域 。 变 量 名 的 引用 将 依次 码 找 
本 地 、 人 全局、 内 置 变量 。 例 如 : 


X= 99 
def addl(lY): 
yy 


return 2 


print (add (1)) 


结果 如 下 : 


100 
>>> 


global 语句 用 于 所 明 一 个 或 多 个 全 局 变量 。 例 如 : 


XxX = 88 
def funct(}): 
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3.3.6 


JlOobal XX 
X = 99 


funct{) 


print (xX) 


输出 结果 如 下 : 
os 

> 

再 例如 : 
证 
def funcl(): 


global x 


XX = V+ Zz 


funct()} 


Printi{x,y,z) 


结果 如 下 : 


>>> 3 1 2 
>>> 


先前 我 们 接触 到 的 函数 的 参数 叫 作 位 置 参 数 ， 即 参数 是 通过 位 置 进行 匹配 的 ， 从 左 到 
右 依次 进行 ， 对 参数 的 位 置 和 个 数 都 有 严格 的 要 求 。 而 在 Python 中 ， 还 有 一 种 是 通过 参数 
的 名 称 来 死 配 ， 这 种 匹配 方式 不 需要 严格 按照 参数 定义 时 的 位 置 来 传递 ， 这 种 参数 叫 作 天 


键 字 参 数 。 


例如 : 


def display (a,b): 
print (a) 
print (b) 


display('hello ','world') 


这 上段 程序 是 想 输出 hello world， 可 以 正常 运行 。 如 果 是 下 和 面 这 段 代 码 ， 可 能 就 得 不 到 


预期 的 结果 : 


68. 


负数 参数 的 类 型 
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def display l(a,b): 


print (a) 

print (b) 
display('hello') # 这 样 会 报销 
displav('world', 'hello') # 这 样 会 输出 worldhello 


可 以 看 出 ， 在 Python 中 默认 是 采用 位 置 人 参数 来 中 配 ， 所 以 在 调用 函数 时 必须 严格 按照 
图 数 定义 时 参数 的 个 数 和 位 置 来 传递 ， 否 则 将 会 出 现 预想 不 到 的 结 打 。 
下 面 这 段 代 码 采 用 关键 字 参 数 传 递 : 


def display (a,b): 
print (a) 
print (bb) 


# 下 面 两 句 代码 的 效果 是 相同 的 
display (a='world',b="'hello') 
display (b='hello',a='world') 


输出 结 未 如 下 : 


world 
hello 
world 
helloc 
>>> 


从 上 面 的 输出 结果 可 知 ， 通 过 指定 参数 名 称 传 递 参数 时 ， 参 数位 置 对 结果 没有 影 啊 。 
另外 ， 关 键 字 参数 最 优越 的 地 方 在 于 它 能 够 给 函数 参数 提供 默认 值 。 例 如 : 


def display (a='hello',b='world'): 
print (a+b) 


display'{() 

display (b="world') 
display (a='"'hello') 
display('world"') 


输出 结果 如 下 : 


helloworld 
helloworld 
helloworld 
worldworld 
>>> 
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在 上 面 的 代码 中 ， 分 别 给 a 和 b 指定 了 默认 参数 ， 即 如 条 不 给 a 或 b 传递 参数 ， 它 们 
就 分 别 采 用 默认 值 。 在 给 参数 指定 了 默认 值 后 ， 如 果 传 递 参数 时 不 指定 参数 名 ， 则 会 从 左 
到 右 依 次 传递 参数 ， 比 如 display('world) 没 有 指定 "world: 是 传递 给 a 还 是 b， 则 默认 从 无 
问 右 匹 配 ， 即 传递 给 a。 男 外 ， 默 认 参 数 一 般 徘 右 。 

使 用 默认 参数 固然 方便 ， 但 在 重复 调用 函数 时 ， 默 认 形 参 会 继承 前 一 次 调用 结束 之 后 
该 形 参 的 值 。 例 如 : 

def insert (a,L=[]}): 


L.append (al) 
Print (LL) 


ijnsertt'hello') 


lnsert('world') 


其 运行 结果 如 下 : 

[ "hello'l| 

| meJLLo ， world | 
> 


3.3.7 ”任意 个 数 的 参数 


一 般 情 况 下 ， 在 定义 函数 时 ， 函 数 参 数 的 个 数 是 确定 的 ， 然 而 ， 在 茶 些 情况 下 ， 参 数 
的 个 数 是 不 确定 的 。 比 如 霖 系统 要 存储 用 万 的 姓名 及 其 小 名 ， 有 些 人 的 小 名 可 能 有 两 个 或 
者 更 多 个 ， 此 时 无 法 确定 参数 的 个 数 ， 束 可 以 使 用 任意 多 个 参数 (收集 参数 )， 使 用 收集 参 
数 时 ， 只 需 在 参数 前 面 加 上 “*” 或 者 “**” 即 可 。 例 如 : 
def storename (name, *nickName): 
BEINEL Tea nam TS 33 ename) 


for nickname in nickName: 


print (nickname) 


storename ('Jack") 
storename (u' 篇 姆 斯 ',u' 小 明 带 ') 
storename (u' 奥 尼 尔 ',u' 大 净 鱼 ',u' 三 不 沾 ') 


输出 结果 如 下 : 


real name 1s Jack 
real name is 篇 姆 斯 
小 皇帝 


real name is 奥尼尔 
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大 获 鱼 
三 不 沾 
>>> 
“*” 和 “**” 表 示 能 够 接受 0 到 任意 多 个 参数 ，“*” 表 示 将 没有 匹配 的 值 都 放 在 同 
一 个 元 组 中 ，“*## ”表示 将 没有 匹配 的 值 都 放 在 一 个 dictionary 中 。 例 如 : 
def printvalue (lar *s, **d): 


print {a,s,d) 


printvalue (1,2,c=3) 
printvalue (1,3,4,2,c=3, f="1") 


输出 结果 如 下 : 

| 本 
1 
>> 


需要 补充 一 反 : 在 Python 中 ， 疯 数 十 可 以 返回 多 个 值 的 ， 如 过 返回 多 个 值 ， 会 将 多 个 
值 放 在 一 个 元 组 或 者 其 他 类 型 的 集合 中 返回 。 例 如 : 


def function(): 
区 = 
Y= [3,4] 


return X,Y 


print {function{()) 


输出 结果 如 下 : 


<r L337 4]) 
2 > 


3.3.8 ” 限 数 调用 


把 已 经 编辑 好 的 程序 代码 保存 成 .py 文件 ， 束 可 以 直接 在 Python 的 IDLE 中 运行 了 ， 
从 荣 单 栏 中 选择 File 一 Open... 命 令 打 开 即 可 ， 再 直接 按 F5 键 即 可 运行 。 

Python 可 以 调用 已 保存 为 apy 文件 内 的 所 有 了 函数， 方案 如 下 。 

(1) 将 a.py 文件 做 成 一 个 包 ， 或 者 直接 和 调用 文件 放 在 同一 个 目录 下 。 

(2) 在 调用 文件 头 引 入 : from a import *。 

这 样 束 可 以 使 用 apy 文件 内 的 所 有 函数 了 。 
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【 例 3-9】 在 prin.py 文件 中 调用 tel.py 文件 。 
文件 tel.py 的 代码 内 容 : 


name=|[|" "Ben" y, Jone", JonNn , Jerry py, Anny rr lVvy yp, Jan, Wong”| 
tel=[6601,6602,6803,6604,6605,6606,6607 ,6608] 


Tellbook=1|)} 

for 1 in range (len (name))}): 
dl="{}".format (name [i]) 
d2="{}".format (tel[i]) 
Tellbook [dl1]=d2 


文件 prin.py 的 代码 内 容 : 


from tel import * 
Print (Tellbook) 


ET 


prin.py 文件 要 做 两 件 事情 ， 先 把 tel.py 文件 中 的 Tellbook 打印 一 下 ， 再 打印 一 句 话 : 


‘this 1s a test for import.’。 


执行 文件 prin.py， 其 结果 如 下 : 


nm Taso Pe rr OnE Ton S60 IVI TOO pr Terr 
6604 "Word "6666608 "Jari Te "Ha07 yy "ANnnv's bo0s"]} 
this 13 a test for jmport. 


> 之 这 


冰 数 也 一 样 ， 当 我 们 调用 函数 时 ， 也 需要 使 用 import 来 导入 。 
【 例 3-10】 函数 的 导入 和 调用 。addyu.py 文件 的 内 容 如 下 : 


#addyu.py 

def add (a=0,b=0): 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 
安 一 忌 十 所 
TE mt 

def 七 人 St (m,K=0,*tup,**dic): 
下 
printt KE rR 
TT En 
DT le 


return 
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在 下 面 的 test addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 : 

#test addyu.py 

from addyu import aaa 

a=add {1,2) 

这 里 的 ffom addyu import add 的 意思 是 从 addyu.py 文件 中 导入 add(a,b) 函 数 。 当 然 ， 
如 果 要 导入 addyu.py 文件 中 所 有 的 函数 ， 那 就 是 fom addyu import *， 为 了 避免 导入 所 有 
的 函数 占 内 存 ， 所 以 一 般 用 到 什么 函数 就 导入 什么 函数 。 只 有 当 导 入 的 函数 比较 多 时 ， 才 
使 用 * 。 夯 外 ， 为 了 防止 导入 的 多 个 模 据 中 有 相同 的 函数 名 而 引起 混乱 ， 不 建议 使 用 *。 

执行 test addyu.py， 结 果 如 下 : 


说 明 : 写 函 数 时 要 养 成 好 的 习惯 一 一 写 函 数 文档 ， 即 写 清楚 函数 的 功能 是 什么 、 怎 
么 用 ， 并 把 文档 内 容 用 三 引号 注释 起 来 ， 它 不 是 函数 体 的 执行 代码 ， 它 的 作 
用 是 给 help 提供 查询 的 ， 如 查 上 例 中 addyu.py 文件 的 功能 : 
>>> help (add) 


Help on function addyu in module addyu: 


add (a=0, b=0) 
此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ,默认 的 是 0+0 


六 > 六 > 六 


还 和 是 上 例 ， 按 如 下 输入 ， 并 观 罕 结 朱 : 


>>> from addyu import test 
Eest(l Al 


ns | 
3 
EU {7 
dic: {} 
>>> 


73. 
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>>> test('al',K=2) 
m: al 


m: al 

Ks 2 

六 本 

dic: {'fname' ‘yu', ‘name' ep 
>>> 


>>> test('al',K=2,3,6,fname='yu',name="'bg") 

SyntaxError: positional argument follows keyword argument 
>>> test('al',K=2, fname='yu',name='bg'") 

m: al 


tup: {() 
dic: {'fname': Yu name': "bg"]} 
>>> test (K=2, fname='yu',name='bg") 
Traceback {most recent call last): 
File "<pyshell#14>", line 1, in <module> 

test (K=2, Ename= yu ,name="'bg") 
IypeError: test() missing 1 redquired positional argument: ‘'m’ 
>>> 


请 比较 一 下 出 错 的 原因 。 
天 于 函数 名 的 一 个 补 序 : 函数 名 其 实 束 是 指 疝 一 个 函数 对 和 象 的 引用 ， 完 全 可 以 把 函数 
名 赋 给 一 个 变量 ， 相 当 于 给 这 个 函数 起 了 一 个 “别名 ”。 例如: 


>>> a = int # 变 量 a 指向 int 函数 
>>> at'2') # 可 以 通过 a 调用 int 函数 
2 


> 之 


3.4 ”好 数 式 编 程 


3.4.1 lambda 


lambda 是 匿名 国 数 ， 也 叫 行 内 印 数 。 
具体 用 法 如 下 : 
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f = lambda x : X+2 # 定 义 了 一 个 函数 f (x)=x+2 

g = lambda x,y : x+y # 定 义 了 一 个 函数 f(x,y)=xty 

lambda 只 是 一 个 表达 式 ， 函 数 体 比 def 简单 很 多 。lambda 表达 式 运行 起 来 像 一 个 函 
数 。 关 于 lambda 函数 的 用 途 有 两 点 说 明 。 

(1) 对 于 单行 函数 ， 使 用 lambda 可 以 省 去 定义 函数 的 过 程 ， 让 代码 更 加 精简 。 

(2) 在 韭 多 次 调用 函数 的 情况 下 ，lambda 表达 式 即 用 即 得 ， 可 以 提高 性 能 。 


3 注意 : 如 果 是 for...in..if( 后 面 将 会 讲 到 ) 能 做 的 ， 最 好 不 要 选择 lambda. 
使 用 lambda 匿名 函数 的 例子 如 下 : 


>>> 1 = lamoda X,Yr 2:X+y+z 
人 

6 

> 之 之 


3.4.2 reduce() 


使 用 reduce(func0, Z)， 可 以 把 一 个 冰 数 作用 在 一 个 序列 上 和 累计 计算 。 其 效果 如 下 : 


reducel(lf, [x1], wa, X33, X44]) = f(E£E(f(xl, x2), X33}, Xx4) 


Python 中 的 reduce 内 建国 数 func0 是 一 个 二 元 操作 函数 ， 它 将 一 个 数据 集合 Z( 可 以 是 
列表 或 元 组 等 ) 中 的 所 有 数据 进行 下 列 操 作 : 用 函数 funcO 对 集合 Z 中 的 第 1、 第 2 个 数据 
进行 运算 ， 将 得 到 的 结果 再 与 Z 中 的 第 三 个 数据 运算 ， 以 此 循环 。 

例如: 


from functools import reduce 
det add (x,y)}: 


return xt+y 


sum=reduce (add, (1,2,3,4,5,6,7)) 

Print (sum) 

执行 上 面 的 程序 ， 输 出 1+2+3+4+5+6+7 的 结果 即 28。reduce 就 是 将 add(x,y) 函 数 作用 
在 (1,2,3,4,5,6,7) 上 ， 即 : 1 赋 给 x，2 赋 给 y， 再 将 计算 结果 (1+2) 赋 给 x，3 赋 给 y;， 再 次 将 
计算 结果 ((1+2)+3) 赋 给 x，4 赋 给 y， 依 此 类 推 。 

当然 ， 也 可 以 用 lambda 的 方法 ， 更 为 简单 : 


>>> from functools import reduce 


>>> sum=reduce (lambda x,v:xt+v, {1,2,3,4,5,6,7})) 


/75N. 


wn》 Python 数据 分 析 基 而 


>>> print (sum) 

28 

>>> 

reduce 在 Python 2.x 中 可 以 直接 用 ， 但 在 Python 3.0 以 后 ， 己 经 不 在 built-in function 
中 ， 要 使 用 它 就 必须 先导 入 : from functools import reduce。 


3.4.3 filterl) 


filterO 用 于 过 滤 订 列 。filter0 接 收 一 个 函数 和 一 个 序列 ， 并 把 传 入 的 函数 依次 作用 于 每 
个 元 素 ， 然 后 根据 返回 值 True 或 者 False， 决 定 保留 还 是 丢弃 该 元 素 。 
例如 ， 在 一 个 list 中 ， 删 掉 偶 数 ， 只 保留 奇数 ， 代 码 如 下 : 


人 

return n $2 == 1 
人 
| 
六 六 六 


再 如 把 一 个 序列 中 的 空 字符 串 删 控 ,代码 如 下 : 


>>> def not empty(s): 


return s and s.stripi) 


-> Selt Eero om Em 
[A". 3 | 
>>> 


可 见 ， 用 filterO0 这 个 高 阶 函 数 时 ， 天 键 在 于 正 硝 地 实现 一 个 “ 痛 选 ”函数 。 
filterO 国 数 还 可 以 实现 行 国 数 功能 。 例 如 : 

>>> b=[1 for 1 in Fange(t1L,，1L0) if i»>5 and 1LI<8j 

>>> b 


[6, 7] 
> 


用 filter0 函 数 改 写 如 下 : 


>>> b=filter(lambda x: X>5 and x<8, range (1,10)) 

>>> lJist (bb) 

[e; 7] 

>>> 

filterO 在 Python 2.7 中 直接 返回 一 个 列表 。 但 在 Python 3.x 中，filterO 是 一 个 容 露 ， 返 
回 时 需要 用 list 调用 才 显 示 数 据 。 
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3.4.4 map!() 


map(func，S) 将 传 入 的 函数 func 依次 作用 到 序列 $ 的 每 个 元 京 ， 并 把 结果 作为 新 的 序 
列 返 回 。 
函数 func 在 S 域 上 遍历 ， 在 Python 3.x 中 map0O 是 一 个 容器 ， 返 回 时 需要 用 list 调用 
才 显 示 数 据 ， 显 示 的 是 func 作用 后 的 结果 数据 。 
【 例 3-11】 比较 map 和 filter: 


>>> list (map (lambda x:x**2, [1,2,3])) 
[| 

>»>>> 11ist (filter(lambda x:x**2 [1.2.3]}) 
le | 


说 明 : map 返回 的 是 func 作用 后 的 结果 数据 ， 而 filter 是 通过 func 作用 筛选 出 作用 
域 的 数据 。map 还 可 以 接受 多 个 参数 的 函数 ， 例 如 : 
>>> list (map (lambda X YIXxYy+Xxr [1,2,3],[4,5,6])) 


ES 2721 
>>> 


map0O、filterO0、reduceO 三 个 函数 循环 要 比 for、while 循环 快 得 多 。 
3.4.5 ” 行 函 数 


行 函 数 也 叫 列表 解析 或 列表 推导 式 ， 格 式 如 下 : 


[<exprl»> for 上 大 in LDL 1f <expr2> | 


【 例 3-12】 将 列表 中 能 被 2 整除 的 元 素 提 取出 来 并 加 上 2: 

二 St 二 [L223 

A=[k+2 for k in list if k $$ 2 == 0] 

print {A) 

可 用 一 行 代码 实现 : 

>>> [ki+2 for KkK in [1,2,3] if k 和 2 == DO] 

[4] 

>>> 

列表 推导 式 (list comprehension) 是 利用 其 他 列表 创建 新 列表 (类 似 于 数学 术语 中 的 集合 
推导 式 ) 的 一 种 方法 。 它 的 工作 方式 类 似 于 for 循环 。 例 如 : 
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>>> [XxX*x for x in ramge(10) ] 
[GO Jl 4, 9r le 25, 36, 493, 64, 81] 
>>> 


如 果 只 想 打 印 出 那些 能 被 3 整除 的 平方 数 ， 只 需要 通过 添加 一 个 站 部 分 在 推导 式 中 就 
可 以 完成 : 


>>> [XxX*xXx for X In range(10) if x $3 == 0] 
[a 
>>> 


也 可 以 增加 更 多 的 for 语句 部 分 。 例 如 : 


>>> [(XY) for x In range(3) for Y in range (3)] 

eB or fOr Lhe Fh ZE re Dr {Tr yr lr lr Ter Dr [2r Thy tt27 20] 
>>> [[X,y] for x in range (2})} for Y in range (2)| 

[Lo ur [Os lj [i, OJ]: Ll 1]] 

> 


3.5 ”常用 的 内 置 汝 数 


前 面 已 经 介绍 过 dir、help、len、id、type、range 等 内 置 函 数 ， 除 此 而 外 ， 常 见 的 内 置 


函数 还 有 sum、zip、enumerate、max、min 等 。 
3.D.1 sum 


sum(s) 是 Python 中 一 个 很 实用 的 函数 ， 但 要 注意 参数 s 的 类 型 。 
例如 : 


>>> 3 = suml(l,2,3) 
IraCeDach (most TOCenEb caLl Last): 
Filée "<pyshell#0>", line 1, in <module> 
S = Sum(l,2,3) 
TypeError: sum expected at most 2 arguments, got 3 


> 之 这 


其 实 sum0 的 参数 是 一 个 list。 例 如 : 


>>> suml([l,2,3]) 

6 

>>> sum(range (1,11)) 
S55 

>>> 
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sum 还 有 一 个 用 法 : 


>>> a = range (l1,11) 
>>> b = range {1,10) 


>>> Cc = suml([item for item in a if item in bl]) 

>> Print(c) 

45 

> 

其 实 ，sum 的 参数 也 可 以 是 集合 、 元 组 ， 甚 至 可 以 是 字典 。 当 然 ， 其 计算 的 对 象 都 应 
该 是 数值 型 int。 例 如 | 

>>> a={l1,2,3] 


>>> sumt{a) 


>>> b=(1,2.,3) 
>>> sum(b) 


>>> c={1:3,2:4,5:6)] 
>>> sum({(c) 对 字典 计算 的 是 键 kev， 不 是 value 


>>> sum(c.valuest()) 


> 


从 上 面 可 以 看 出 ， 对 字典 用 sum 计算 的 是 key， 而 不 是 value。 计 算 value 值 时 ， 使 用 
字典 对 象 的 属性 values()。 


3.5.2 ZIp 


zip(ts) 返 回 t 和 s 的 一 个 相互 匹配 的 列表 。 例 如 : 


>>> t='abc' 

二 

>>> z=2Z1p (t,s) 

<zZip object at Ox04104A08> 
>>> list!(z) 

[oe pe Eby CU Dy 2 AC 7 | 
> 


石 长 度 不 够 ,以 最 短 的 为 主 。 例 如 : 


ml Doed ee 2 
<zip object at Ox041049E0> 
人 
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本 全 玖 和 J I 请 所 汪汪 人 [人 A A 


之 之 字 
这 类 似 于 元 组 里 说 的 解 包 。 
再 如 : 


S33 Ke [1 2 入 | 

>>> y= [4，5，6] 

>>> w= [7, 8, 9] 

>>> XVZ = Zl1p (XxX Vr 2) 

>>> uu = Zl1p (*Xxyz) 

>>> print (list (u)) 

[ (ly 2r 3), (4 or er (rr 8B8, 3)] 


一 般 认 为 * 是 一 个 unzip 的 过 程 ， 它 的 运行 机 制 如 下 。 
在 运行 zip(*xyz) 之 前 ，xyz 的 值 是 [(1, 4, 7), (2, 5，8), (3, 6, 9)]， 那 么 zip(*xyz) 等 价 于 
zip((1, 4, 7), (2, 5, 8), (3, 6, 9))， 所 以 运行 结果 是 [(1, 2, 3), (4, 5, 6), (7, 8, 9)]。 


试 试 下 面 的 练习 : 
| 
>>> I = 二 Zipt{* [x] * 3) 


>>> print (list(r)) 

Lol Te Dlr (TOR Po | Sy 

> 

上 面 的 代码 运行 机 制 是 这 样 的 : 

@ [x] 生 成 一 个 元 聚 的 列表 ， 它 只 有 一 个 元 妈 x 
@ [xl*3 生 成 一 个 列表 ， 它 有 3 个 元 素 [x, x, x]。 
@@ zip(* [x] * 3) 的 意思 就 明确 了 ，zip(x, x, x)。 
dict 和 zip 可 以 组 合 使 用 ， 生 成 字典 。 例 如 : 


>>> d= dict (zip('abc', range (1,4)})) 
>>> 口 
EE 


列表 。 


> 


3.5.3 enumerate 


enumerate(t) 返 回 t 的 index 和 元 素 对 ，t 可 以 是 字符 串 、 列 表 、 元 组 、 字 典 等 ， 知 是 字 
典 ， 则 返回 的 是 键 名 。 例 如 : 
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es 
>>> for i,k in enumerate (七 ) : 


DEL (tL) 


9 于 主 这 纪 七 
1 third 
2 Second 


> 


3.5.4 max 和 min 


max() 和 min0 的 参数 同 sum0 ， 可 以 是 列表 、 元 组 、 集 合 、 字 典 ， 甚 至 可 以 是 
range()。 

当然 ， 字 典 默认 的 是 针对 key， 若 需要 对 value 进行 计算 ， 则 需要 使 用 .values() 方 法 。 

例如 : 

>>» A={l:2,3:4,.5:61 


>>> maxt{(a) 


>>> min(a.valuest{()) 
> B=T a a Ed 
>>> min {(B) 


ia 
和 >> 之 


当 key 不 是 数值 型 时 ， 比 较 的 是 key 的 ASCII 码 。 
3.5.D eval 


eval0 将 字符 串 str 当成 有 效 的 表达 式 来 求 值 ， 并 返回 计算 结果 。 例 如 : 


>>>X = 1] 
>>>eval('xt+1'"') 
2 


0 a ee 
>>>b = eval (a) 

>>>b 

[le li Lr els Lor Ge Lie em) [Ys Ql] 

>>>type (b) 

11ist 
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>>>C = nfl: al， 2: !b'}" # 注 意 c 是 字符 申 
>>>d = eval(c) 
>>>d 
El a2 
>>>type (d) 


上 辣 计 训 9 攻 
>>>e 一 ( [Lrc]j，，[L3r4]，[>r6ej， [778]， (3r0) 
>>>f = eval (e) 
>>>f 

SLES ep ol [lr I gy 
>>> 
但 下 面 的 代码 存在 很 大 的 风险 : 
IT 
0 


>>> open('dir.txt"') .readt({) 


' 了 驱动 器 D 中 的 卷 是 soft\n 卷 的 序列 号 是 0046-527B\n\n D:\\python35 的 目录 


2 Le U8 L991 <DIR> nDle Le T3909 G19 

<DIR> | 406 0.py\n2016-08-13 

中 和 各 YY dir.txt\n2016-06-15 22:07 <DIR> 

DLLSsS\n2016-06-15 22:07 <DIR> Doc\n2016-06-15 22:06 <DIR> 
include\n2016-06-15 22:07 <DIR> LTD T2010 06— LD 2Z2507 <DIR> 
下 D500 BLEMSEe Erb na [2 Uo De 
310, 468 NEWS.txt\n2015-12-06 0l1:40 38,680 python.exe‘\n2015-12- 
6 LE- 3 51,480 python3.dll\n2015-1]2-06 01:39 Sr lar dO 
Python35.dl1l1\n2015-12-06 01:40 38,680 pythonw.exe\n2015-11-22 
22:58 8,269 README .txt\n2016-06-15 22:08 <DIR> 

Sor s (nD le 0 J 2 <DIR> 在 人 

317 test.py\n2016-06-25 11:37 317 testl.py\n2016-06-25 

1l8:59 150 TestClass.py‘\n2016-06-1]15 22:07 <DIR> 
Tools\n2015-06-25 23:34 85, 328 vcruntimel40.dll‘\n2016-06-25 
11:38 <DIR> pycache \n L300 a 39 
\n 11 个 目录 35,201,863,680 可 用 字 节 \n? 

>>> 


执行 上 和 面 的 两 句 代 码 ， 其 实 束 已 经 在 Python 3.x 安装 目录 下 建立 了 一 个 名 为 dir.txt 的 


文件 。 如 乔 再 运行 下 面 这 两 名 代码 ， 则 可 以 将 新 建 的 dir.txt 文件 删除 ! 


>>> import os # 导 入 os 模块 

>>> os.system{'del dir.txt /9g') 
0 

>>> 


上 面 新 建 的 dir.txt 文件 已 经 被 删除 了 ! 也 就 是 说 ， 这 两 句 代 码 可 以 删除 本 台 计 算 机 上 
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的 任何 文件 ! 
下 面 的 代码 请 自行 测试 : 
>>>eval(" jimport {'os') .systeml(r'md c:\\testtest"')") 
>>>eval{" import {'o0s') .systeml(r'rd/s/q c:\\testtest"')") 
>>>eval{™" import {('os') .startfile(r'c:\‘windows\\notepad.exe"')™") 
> 之 之 


3.5.6 判断 函数 


下 面 这 几 个 函数 第 用 于 判断 。 

(1) in: 常用 于 字符 串 、 列 表 、 元 组 、 字 典 、 集 合 中 ， 用 来 判断 一 个 字符 串 或 者 一 个 
元 素 是 否 属于 字符 串 或 者 列表 等 。 同 样 ， 对 应 的 还 有 not in。 

例如 : 


>>>a={| a'':2, bd,'o':61 
es 

True 

ar not 1in .a 

FAaAlse 

>>> 


(2) startswithO 、endswithO: 做 文本 处 理 时 ， 用 来 判断 字符 串 开 始 和 结束 的 位 置 。 
基本 格式 如 下 : 


Ss.startswith (prefix[, start[, end]jl]) 
Ss.endswith (suffix[, start[, end]l]) 


示例 代码 如 下 : 


>>>"fish".startswith!("'f1i"') 

True 

>>>" FiSh" .etartewith('fiyly + 此 信 的 了 了 表 不 从 案 引 位 置 1 天 如 
False 

>>> "fish"™" .endswitht{'sh'") 

True 

>>> "fish".endswith{'sh" ,3) 

False 

>>> 


Python 的 这 两 个 函数 有 个 特别 的 地 方 一 一 它 的 prefix 和 suffix 参数 不 仅 可 以 是 字符 
串 ， 还 都 可 以 是 一 个 元 组 。 只 要 其 中 一 个 成 立 ， 就 返回 True， 也 就 是 一 种 “或 ”的 关系 。 
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fs 


例如 : 
i FTEename endeswitht lt vat oD Ttafte yy): 
print ("ss 是 一 个 图 片 文 件 ” sfilename) 
上 面 两 行 代码 根据 文件 扩展 名 是 否 是 gif、jpg 或 tiff 之 一 来 确定 文件 是 不 是 图 片 文 
这 个 代码 也 可 以 写成 : 
if filename.erdswithi".ogqif") or filename.endswith(". jpg") Gr “ 寺 演 行 
filename .endswith(".tiff™"): 
print ("$s 十 一 个 图 片 廊 件 "%filename) 
不 过 ， 这 样 比 较 打 烦 。 值 得 注意 的 是 ， 别 在 了 元 组 的 括号 。 
(3) isalinum0: 检测 字符 串 是 否 仅 由 字母 和 数字 组 成 ， 若 其 间 夹 杂 有 空格 、 标 点 符号 


或 者 其 他 字符 ， 则 都 返回 False。 例 如 : 


>>>St = "this2009" 

>>>print(lstr.isalnumt{)) 

lIue 

>>>str = "this 3s string example... .WOoOw!!!l" 


>>orint tetrisalrnumt()) 
False 

>>>strl] = "hello" 
>>>print (strl.1isalnum!()) 
TIrue 


> 之 之 


(4) isaipha0: 检测 字符 串 是 否 只 由 字母 组 成 。 如 果 字 符 串 中 的 所 有 字符 都 是 字母 ， 


则 返回 True， 人 和 否则 返回 False。 例 如 : 


>>>str = "this"™ 

>>>print (str.isalpha()) 

lrue 

>>>Str = "this is string example... .Wow!!!" 
>>>print (str.isalpha()) 

False 

>>> 


(5) isdigit0: 检查 字符 串 是 否 只 包含 数字 (全 由 数字 组 成 )。 如 果 字 符 串 中 的 所 有 字符 


都 是 数字 ， 则 返回 True， 否 则 返回 False。 例 如 : 


>>>str = "123456" 

>>>print (str.isdigit ()) 

Tl 

>>>str = "this is String example... .wow!!i!" 


>>>printlstr.isdigit 1)) 
False 


> 


其 他 由 症 图 数 见 表 3-2。 


内 置 冰 数 


abs(X) 


divmod(a, b) 


int([x[, base]]) 

pow(x, yl, z]) 
range([start], stop|[, step]) 
round(x|, n|) 
suml(iterable|, start|) 
chr(1) 

bin(x) 


format(value |[, format spec]) 


enumerate(sequence |[, start = 01) 
max(iterable[, args...][key]) 
min(iterable[, args...|[key]) 

dict([arg]) 

list([iterable]) 

set() 

str([object]) 

sorted(iterable[, cmp[, key[, reverse]]]) 
tuple([iterable]) 


dir([object]) 
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表 3-2 ”其 他 内 置 函 数 


说 明 
求 绝对 值 
GD 参数 可 以 是 整 型 ， 也 可 以 是 复数 
名 在 参数 是 复数 ， 则 返回 复数 的 模 
分 别 取 ab 的 商 和 余数 
注意 : 整 型 、 浮 点 型 都 可 以 
将 一 个 字符 转换 为 int 类 型 ，base 表示 进 制 
返回 Xx 的 y 座 震 
产生 一 个 序列 ， 默 认 从 0 开始 
四 舍 五 入 
对 集合 求 和 
返回 整数 i 对 应 的 ASCII 字符 
将 整数 x 转换 为 二 进 制 字 符 串 
格式 化 输出 字符 串 
格式 化 的 参数 顺序 从 0 开始， 如 “Iam {0},I like {1}” 
返回 一 个 可 枚 举 的 对 象 ， 其 next0) 方 法 将 返回 一 个 tuple 
返回 集合 中 的 最 大 值 
返回 集合 中 的 最 小 值 
创建 数据 字典 
将 一 个 集合 类 转换 为 男 外 一 个 集合 类 
set 对 象 实例 化 
转换 为 string 类 型 
对 集合 列表 排序 ， 不 对 原 集合 列表 排序 ， 返 回 新 的 集合 列表 
生成 一 个 tuple 类 型 
GD 不 带 参数 时 ， 返 回 当前 范围 内 的 变量 、 方 法 和 定义 的 类 
型 列表 
名) 带 参 数 时 ， 返 回 参 数 的 属性 、 方 法 列表 
(3) 当 参 数 为 实例 时 ， 如 果 参 数 包 合 方法 _dir 0， 该 方法 
将 被 调用 
如 果 参 数 不 包 含 _ dir 0， 该 方法 将 最 大 限度 地 收集 参 
数 信 息 


. ss . 
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内 置 函 数 
eval(expression [, globals [, locals]]) 
id(object) 
len(s) 
locals() 


map(function, iterable, ...) 


next(iterator[, default]) 
reduce(function, iterable[, Initializer|) 


type(object) 
zip([iterable, ...|) 


file(filename [, mode [, bufsize]]) 


input([prompt]) 
open(name[, mode[, buffering]]) 


print() 


Python 程序 第 见 的 弄 和 常见 表 3- 


续 表 


说 表 
计算 表达 式 expression 的 值 
返回 对 象 的 唯一 标识 
返回 集合 长 度 
返回 当前 的 变量 列表 
遍历 每 个 元 素 ， 执 行 function 操作 
类 似 于 iterator.nextO 
合并 操作 ， 从 第 一 个 开始 是 前 两 个 参数 ， 人 然后 是 前 两 个 的 结 
果 与 第 三 个 合并 进行 处 理 ， 以 此 类 推 
返回 该 object 的 类 型 
滤 阵 变 巴 处 理 
file 类 型 的 构造 函数 ， 作 用 为 打开 一 个 文件 ， 如 果 文 件 不 存 
在 且 mode 为 号 或 退 加 时 ， 文 件 将 被 创建 。 添 加 ?到 mode 
参数 中 ， 将 对 文件 以 二 进 制 形式 操作 。 添 加 ‘+ 到 mode 参数 
中 ， 将 允许 对 文件 同时 进行 读 写 操作 
() 参数 flename: 文件 名 称 
@) 参数 mode: TT( 读 )、‘w’( 写 )、‘a*( 退 加 ) 
BG) 参数 bufsize: 如 果 为 0， 表 示 不 进行 缓冲 ; 如 果 为 1， 表 
示 进 行 组 促 ， 如 果 是 一 个 大 于 1 的 数 ， 表 示 绥 六 区 的 大 小 
获取 用 户 输入 ， 返 回 的 结果 是 字符 型 
打开 文件 
思考 与 file 有 什么 不 同 ? 推荐 使 用 open 
打印 函数 


党 见 的 错误 显示 


异 常 描 述 
NameError 笃 试 访问 一 个 没有 声明 的 变量 
SyntaxError 语法 错误 
ZeroDivisionError 除数 为 0 
IndexError 过 引 超 出 序列 范围 
KeyError 请 求 一 个 不 存在 的 字典 关键 字 
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续 表 
异 党 渔 述 
IOError 输入 输出 错误 (比如 要 读 的 文件 不 存在 ) 
AttributeError 乏 试 访问 未 知 的 对 象 属性 
IndentationError 冒号 换行 后 没有 缩 进 
ValueError 传 给 函数 的 参数 类 型 不 正确 ， 比 如 给 int0 函 数 传 入 字符 串 型 
一 个 篆 见 错误 的 例子 : 
while 1: 
try: 
和 一 nt (input('No.1]: ")) 
Y = IJnt (input('No.2: ")) 
r= X/Yy 
print (re) 


except (Exception) as e: 
print(e) 
print('again’') 

Se 
break 


File “<ipython-input-15-6f26b9b9c36e>", line 3 
w= TNEineut( No ls 


~ 


IndentationError: expected an indented block 


上 向 的 销 误 十 因 为 try 行 后 有 昌 写 ， 下 一 行 代 人 码 应 访 有 红 进 ， 包 括 后 面 的 几 行 部 应 该 


3.6.1 常见 的 错误 类 型 


(1) NameError: 壬 试 访问 一 个 未 声明 的 变量 。 例 如 : 


>>> VV 
Traceback (most recent call last): 
File "<pyshell#0>", line 1, in <module> 
V 
NameError: name "V' lis not defined 


> 


(2) ZeroDivisionError: 除数 为 0。 例 如 : 


(87\. 
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>>> 了 = 1/0 
Traceback (most recent call last): 
File "<pyshell#1>", line 1, in <module> 
v= 1/0 
ODIVISLIONErToOD TIvISTON DY Zero 
> 之 禄 


(3) SyntaxError: 语法 错误 。 例 如 : 


>>> jnt 4 


SvntaxError: linvalid svyntax 


> 
(4) IndexError: 索引 超出 范围 。 例 如 : 
| 


>>> lJ1istl1[3] 
Traceback {most recent call last): 
File "<pyshell#4>", line 1, in <module> 
| 
IndexError: list index out of range 


> 这 这 


(5) KeyError: 字典 关键 字 不 存在 。 例 如 : 


Le 
Ee | 
TACEDACKE me Tooent cal Last).: 
File "<pyshell#6>", line 1, in <module> 
Le | 
KeyError: ‘3" 
>>> 


(6) AttributeError: 访问 未 知 对 象 属性 。 例 如 : 


>>> Str="']23" 
>>> str.append'tl) 
Traceback {most recent call last): 
File "<pyshell#9>", line 1, in <module> 
str.append l) 
AttributeError: “str obJject has no attribute 


> 


(7) ValueError: 数 全 铅 误 。 例 如 : 


上 
Traceback {most recent call last): 
File "<pyshell#10>", line 1, in <module> 


‘append" 
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1 Ce 
ValueError: invallid literal for int() with base 1l10: dd"' 


> 


(8) TypeError: 类 型 销 误 。 例 如 : 


>>> DIElint("1l23+45) 
Traceback {most recent call last): 
File "<pyshell#11>", line 1, in <module> 
print( Ll23 Tds) 
TypeError: Can't convert ‘int" object to str implicitly 


> 


3.6.2 ”初学 者 党 犯 的 错误 


初学 Python 时 ， 想 要 彻底 弄 懂 Python 错误 信息 的 含义 可 能 有 点 不 容易 ， 下 面 列 出 了 
程序 运行 时 出 现 的 一 些 营 见 异 名， 这 些 卉 第 也 是 新 于 第 犯 的 错误 。 
(1) 瑟 记 在 if、elif、else、for、while、class、def 等 未 尾 添 加 冒号 人， 导致 出 现 了 
“SyntaxError: invalid syntax ”错误 。 
该 错误 将 发 生 在 类 似 如 下 的 代码 中 : 
if spam == 42 
print ('Hello!') 
(2) 使 用 = 而 不 是 一 ， 导 致 出 现 了 “SyntaxError: invalid syntax” 错 误 。 
= 是 赋值 操作 符 而 一 是 等 于 比较 操作 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 
if apam — M2 
print{('Hello!") 
(3) 铬 误 地 使 用 了 缩 进 量 ， 导 致 出 现 了 “IndentationError: unexpected indent”、 
“IndentationError: unindent does not match any outer indetation level” 以 及 “IndentationError: 
expected an indented block” 钳 误 。 记 住 缩 进 只 用 在 以 “:” 结 束 的 语句 之 后 ， 而 之 后 必须 恢 
复 到 之 前 的 缩 进 格式 ， 缩 进 是 四 个 空格 。 该 错误 发 生 在 类 似 如 下 的 代码 中 : 
print ('Hello!') 
print ('Howdy!') 
或 者 : 


if spam == 42: 
el 
print{'Howdy!") 


(sen 


wm 区 python 数据 分 析 基 而 


或 者 : 


if spam == 42 : 
rmt HelLleot 


缩 进 一 定 要 按 层 次 缩 进 ， 尽 管 Python 3.5 已 经 做 了 很 多 优化 ， 如 “:” 后 换行 有 时 候 可 


以 只 空 一 个 空格 ， 也 能 执行 ， 但 为 了 保持 代码 的 可 读 性 ， 还 是 应 尽 可 能 地 空 四 格 ， 以 养 成 
民 好 的 编写 代码 习惯 。 


(4) 在 for 循环 语句 中 起 记 调 用 letn0， 导 致 出 现 了 “TypeError: ‘list” object cannot be 


interpreted as an integer” 和 错误 。 


通常 想 要 通过 索引 来 迭代 一 个 list 或 者 string 的 元 素 时 ， 需 要 调用 range0 函 数 。 要 返 


回 len 值 而 不 是 返回 这 个 列表 。 谤 错误 友 生 在 类 似 如 下 的 代码 中 : 


Spam = [cat', dog, IDOUS | 
for 1 in range (spam): 


Print {spaml[il]) 


(5) 尝试 修改 string 的 值 ， 导 致 出 现 了 “TypeError: “str” object does not support item 


assignment” 错误 。 


string 是 一 种 不 可 变 的 数据 类 型 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = "I have a Pet cat.' 


SPam[13] = ? 工 " 


而 实际 想 要 这 样 做 : 


spam = "I have a Pet cat.' 


spam = SPam[:13] + '‘'r' + SPam[14:] 


(6) 尝试 连接 非 字 符 串 值 与 字符 串 ， 导 致 出 现 了 “TypeError: Can’t convert ‘int” object 


to str implicitly” 铬 误 。 


该 错误 妇 生 在 拓 似 如 下 的 代码 中 : 


mumEgGS = 12 
Printt{"I have 7 + numEggs + ' eggs. ) 


而 实际 想 要 这 样 做 : 


NuUumEggs = 12 
Print{'I have ”+ str(numEggs) + " eggs.")} 


或 者 : 


nuUumEggs = 12 
print{('I have $s eggs.' $$ (numEggs)) 
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(7) 在 字符 串 首 尾 筷 记 加 引号 ， 导 致 出 现 了 “SyntaxError: EOL while scanning string 
literal ”第 误 。 
该 饭 误 友 生 在 类 似 如 下 的 代码 中 : 


print (Hello!") 


或 者 : 


print('Hellol!) 


或 者 : 


myName = “有 AT- 


Printt('My name is8 ”二 myName + . How are you?') 

(8) 变量 或 者 函数 名 拼写 错误 ， 导 致 出 现 了 “NameError: name ‘fooba’ is not defined” 
错误 。 

该 错误 发 生 在 类 似 如 下 的 代码 中 : 


foobar = "Al' 


Print{'My name 13 "+ fooba) 

或 者 : 

spam = ruond(4.2) 

或 者 : 

spam = Round (4.2) 

(9) 方法 名 拼写 错误 ， 导 致 出 现 了 “AttributeError: “str” object has no attribute 
lowerr' ”错误 。 访 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = THIS IS IN LOWERCASE. 


spam = spam. lowerr ( ) 


(10) 引用 超过 了 list 的 最 大 索引 ， 导 致 出 现 了 “IndexError: list index out of range” 错 
误 。 设 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = ['cat', "dog', ‘mouse'| 


Print (spam[6]) 


(11) 使 用 不 和 存在 的 字典 键 仁 ， 导 致 出 现 了 “KeyError: ‘spam ”错误 。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 


spam = {'cat': "2opPphie" dog': 'Basil', ‘mouse': "Whiskers']} 


print('The name of my Pet zebra is ' + spaml[l'zebra']) 
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(12) 尝试 使 用 Python 关键 字 作 为 变量 名 ， 导 致 出 现 了 “SyntaxError: invalid syntax” 错 
误 。Python 关键 字 不 能 用 作 变 量 名 ， 该 错误 发 生 在 类 似 如 下 的 代码 中 : 


Class = "algepra 


Python 3.x 的 关键 字 有 and、as、assert、break、class、continue、def、del、elif、else、 
except、 False、finally、for、from、global、1f、1i1mport、1n、18、lambda、None、nonlocal、 
not、 or、 pass、ralse、return、True、 try、while、with、yield。 

(13) 尝试 使 用 rangeO 创 建 整 数列 表 ， 导 致 出 现 了 “TypeError: ‘range’” object does not 
support item assignment” 错 误 。 

有 时 想 要 得 到 一 个 有 序 的 整数 列表 ， 所 以 range0 看 上 去 是 生成 此 列表 的 不 错 方式 。 然 
range0 返 回 的 是 range 对 象 ， 而 不 是 实际 的 list 值 。 
该 错误 发 生 在 类 似 如 下 的 代 但 中 : 


spam = range (10) 


而 


生 


SPam[4]j = -1 


而 实际 想 要 这 样 做 : 


spam = list (range (10)) 

scam[i4] — 1 

应 注意 : 在 Python 2.7 中 ，spam = range(10) 是 可 行 的 ， 因 为 在 Python 2.7 中 range0 
返回 的 是 list 值 ， 但 是 在 Python 3.x 中 会 产生 以 上 错误 。 

(14) 错误 地 使 用 了 ++( 自 增 ) 或 ~-( 目 减 ) 运 算 符 ， 导 致 出 现 了 “SyntaxError: invalid 
syntax” 和 错误 。 

如 果 习 惯 于 使 用 C++、Java、PHP 等 其 他 的 语言 ， 也 许 会 想 要 符 试 使 用 ++( 目 增 ) 或 一 
( 目 减 ) 一 个 变量 。 而 在 Python 中 ， 却 并 没有 这 样 的 操作 符 。 

该 错误 发 生 在 类 似 如 下 的 代码 中 : 

spam = 1 


sam 十 十 


而 真正 想 要 做 的 是 : 
spam = 1 


spam += 1 


(15) 类 中 态 记 为 方法 的 第 一 个 参数 添加 self 参数 ， 导 致 出 现 了 “TypeError: myMethod0 


takes no areuments (1 given)” 错误。 
该 错误 发 生 在 类 似 如 下 的 代码 中 : 
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class Foo(): 
def myMethodt(): 
Print('" Hello!™") 


a = Foo() 
myMethod (1 


而 实际 上 应 该 这 样 做 : 


class Foo(): 
dei myMethodtself): 
print('Hello!') 


a = Foo{() 
a.myMethod il) 


3.6.3 {try 


在 Python 中 ，try-except 语句 主要 用 于 处 理 程 序 正 第 执行 过 程 中 出 现 的 一 些 异 第 情 
况 ， 如 语法 错误 、 数 据 除 堆 错误、 从 未 定义 的 变量 上 取 值 等 ， 而 try-finally 语句 则 主要 用 
于 监控 错误 的 环节 。 
尽管 try-except 和 try-finally 的 作用 不 同 ， 但 是 在 编程 实践 中 通 币 可 以 把 它们 组 合 在 一 
起 使 用 ， 以 try-except-else-finally 的 形式 来 实现 稳定 性 和 灵活 性 更 好 的 设计 。 
Python 中 ，try-except-else-finally 语句 的 完整 格式 如 下 : 
| 
Normal executILon block 
eXcCcept A: 
Exception A handle 
except B: 
Exception B handle 
夫人 二 
Other exception handle 
else: # 可 无 ， 和 耕 有 必 有 except x 或 except 存在 ， 仅 在 try 后 无 寞 第 时 执行 
if no exception, get here 
finally: # 此 语句 务必 放 在 最 后 ， 并 且 也 是 必须 执行 的 语句 
print ("finally"™) 
说 明 : 正常 执行 的 程序 在 try 下 的 Normal execution block 块 中 执行 ， 在 执行 过 程 中 ， 
如 果 发 生 了 异常 ， 则 中 断 当 前 在 Normal execution block 中 的 执行 ， 跳 转 到 对 应 的 腊 第 处 理 
块 except x(A 或 B) 中 开始 执行 ，Python 从 第 一 个 except x 处 开始 查找 ， 如 果 找 到 了 对 应 的 
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exception 类 型 ， 则 进入 其 提供 的 exception handle 中 进行 处 理 ， 如 果 没 有 ， 则 依次 进入 第 
二 个 ， 如 果 都 没有 找到 ， 则 直接 进入 except 块 进行 处 理 。except 块 是 可 选项 ， 如 果 没 有 提 
供 ， 该 exception 将 会 被 提交 给 Python 进行 默认 处 理 ， 处 理 方式 则 是 终止 应 用 程序 并 打印 
提示 信息 。 

如 条 在 Normal execution block 执行 块 的 执行 过 程 中 没有 发 生 任 何 异 第 ， 则 在 执行 完 
Normal execution block 后 ， 会 进入 else 执行 块 中 ( 硅 存 在 ) 执 行 。 

无 论 发 生 异 音 与 否 ， 若 有 finally 语句 ， 以 上 try-except-else 代码 块 执行 的 最 后 一 步 总 
是 执行 fnally 所 对 应 的 代码 块 。 

需要 注意 如 下 几 个 问题 。 

(1) 在 上 面 所 示 的 完整 语句 中 ，try-except-else-finally 所 出 现 的 顺序 必须 是 try 一 except 
x 一 except 一 else 一 finally， 即 所 有 的 except 必须 在 else 和 finally 之 前 ，else( 各 有 ) 必 须 在 
finally 之 前 ， 而 except x 必须 在 except 之 前 。 和 否则 会 出 现 语法 错误 。 

(2) 对 于 上 和 面 所 展示 的 try-except 完整 格式 而 言 ，else 和 finally 都 是 可 选 的 ， 而 不 是 
必需 的 。 但 若 存在 else， 则 必须 放 在 finally 之 前 ，finally( 如 果 存 在 ) 必 须 放 在 整个 语句 的 最 
后 位 置 。 

(3) 在 上 面 的 完整 语句 中 ，else 语句 的 存在 必须 以 except x 或 者 except 语句 为 前 提 ， 
如 果 在 没有 except 语句 的 try block 中 使 用 else 语句 ， 会 引发 语法 错误 。 即 else 不 能 仅 与 
try-finally 配合 使 用 。 

【 例 3-13 】 一 个 try-except-else 的 例子 : 


while 1: 
七 工 Y : 

x = int(input('No.1: ')) 

Vy = int(input('No.2: '})) 


r= xX/Yy 
DETTit Ee) 
except (Exception) as e: # 趟 管 什么 异 汕 ， 都 捕获 给 e 
print{(e) 
print('again') 
] Sse: 


break 


这 段 代码 的 意思 是 : 从 键盘 接收 两 个 输入 (数字 或 者 字符 )， 转 化 为 数字 型 做 除法 ， 如 
果 符 合 除法 规则 ， 就 输出 结果 ， 并 跳 转 执行 else 语句 ， 如 果 不 符 合 ， 有 错误 ， 则 进入 
except 语句 ， 打 印 错误 原因 ， 并 重新 来 一 钦 。 
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看 下 面 的 输入 和 输出 结果 : 
No.1: 1 
No.2: 0 


division by zero 


Agalin 

No.1: 1 

No.2: a 

linvalid literal for int(} with base J]0O0: a' 
again 

NO.1: 1 

NO.2: 2 

由 


final 放 在 try 的 最 后 ， 不 管 前 面 发 生 了 什么 ，final 后 面 的 语句 均 执 行 。 
3.6.4 assert 


assert 是 断言 的 关键 字 。 执 行 该 语句 时 ， 先 判断 表达 式 expression， 如 果 表 达 式 为 真 ， 
则 什么 都 不 做 ; 如 果 表 达 式 为 假 ， 则 抛 出 异常 。 例 如 : 
>>> assert len('love') == len('like"') 
>>> assert len('love u') == len('like') 
Traceback {most recent call last): 
File "<pyshell#15>", line 1, in <module> 
assert lenl('love uyu') == len('like') 
AssertionError 
> 


可 以 看 出 ， 如 果 assert 后 面 的 表达 式 为 真 ， 则 什么 都 不 做 ， 如 果 为 假 ， 就 会 抛 出 
AssertionError 异常 。 


3.6.5 ralse 


当 程 序 出 现 错误 时 ，Python 会 目 动 引发 异 弟 ， 也 可 以 通过 raise 显 式 地 引发 异 第 。 一 
旦 执行 了 raise 语句 ，raise 后 而 的 语句 将 不 能 执行 。 

下 面 溃 示 raise 的 用 法 : 

try: 


号 一 None 


if s is None: 


wn》 Python 数据 分 析 基 而 


Print(rs 是 空 对 象 ") 
raise NameError # 如 果 有 NameError 异常 ， 后 面 代码 都 将 不 执行 
print (len(s)}) 
except TypPpeError: 
print (" 空 对 象 没 有 长 度 ") 
执行 结果 : 
s 是 空 对 象 


Traceback (most recent call last): 


File "<ipython-input-l18-c87e44fl8de5>", line 5S5, in <module> 


raise NameError # 如 果 有 NameError 异常 ， 后 面 代 码 都 将 不 执行 


NameError 
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SI 7 


>>> a=[l1.23e+l18, 1, -1].23e+18] 
>>> sumt{a) 

0 .0 

>>> 


怎么 会 是 0? 再 执行 下 面 的 代码 : 

>>> jmport math 

>>> math.fsuml(a) 

1 

之 这 

这 束 对 了 了 ! 

计算 机 由 于 浮上 所 数 的 运算 问题 ， 会 导致 上 面 的 结案 有 到 有 寞 。 但 是 我 们 引入 一 个 math 
后 ， 计 算 结 末了 吏 正 钊 了 。 


3.7.1 模块 (module) 


模块 是 包含 图 数 和 其 他 语句 的 Python 脚本 文件 ， 它 以 “.py” 为 后 缀 名 ， 即 用 Python 
脚本 的 后 缀 名 。 表 现形 式 为 : 编写 的 代码 保存 为 文件 ， 这 个 文件 就 是 一 个 模块 ， 如 
sample.py， 其 中 ， 文 件 名 sample 为 模块 名 称 。 

在 Python 中 可 以 通过 导入 和 模块， 然后 使 用 其 模块 中 提供 的 函数 或 者 数据 。 关 于 模块 的 


第 3 章 ，” 流 程控 制 及 函数 与 类 全 


导入 方法 ， 这 里 以 math 模块 为 例 : 

@ import math: 导入 math 模块 。 

@@ import math as m: 导入 math 模块 并 取 个 别名 为 m。 

@ from math import exp as e: 导入 math 库 中 的 exp 图 数 并 取 别 名 为 e。 

要 想 使 用 imnport 叶 入 的 模块 中 的 函数 ， 则 必须 以 “模块 名 .函数 名 ”的 形式 调用 函数 ; 
而 from 是 将 模块 中 茶 个 函数 而 不 是 整个 模块 导入 ， 所 以 使 用 from 导入 的 模块 中 的 茶 个 了 
数 ， 可 以 直接 以 函数 名 调用 ， 不 必 在 前 面 加 上 模块 名 称 。 例 如 : 


>>> import math as m # 给 math 模块 取 个 别名 m， 使 用 时 用 m 替代 math 
>>> a=[l1.23etl8, 1l1, -1.23e+18] 

>>> m.fsuml(a) 

Le 


>>> from math import fsum # 这 里 仅 导 入 了 matnh 模块 中 的 fsum 函数 

>>> a=[].23e+l8, 1, -1.23e+]8] 

>>> fsum(a) # 直 接 使 用 fsum () 函数 ， 不 再 使 用 math .fsum1() 
| 局 

>>> 


以 from 导入 模块 中 的 函数 后 ， 使 用 模块 中 的 函数 会 方便 很 多 ， 不 再 使 用 模块 名 。 如 
末 要 想 将 多 个 模块 中 的 所 有 了 沙 数 虱 杀 用 这 种 方式 村 入 ， 则 可 以 在 from 中 使 用 “*” 通 配 
伯 ， 表 示 守 入 模块 中 的 所 有 函数 ， 但 一 般 不 这 么 用 。 如 下 所 示 : 


>>> from math import sgrt # 仅 导入 了 sqgrt 函数 
>>> Sqrt (4) 
2.0 
>>> cos (4) # 仅 导入 了 sqrt 国 数 ， 所 以 cos 函数 不 能 用 
Traceback {most recent call last): 

File "<pyshell#13>", line 1, in <module> 

cos (4) 

NameError: name "cos ”1LS not defined 
>>> from math import * # 将 math 中 的 所 有 函数 全 部 导入 
>>> sqgqrt (4) 
2.0 
>>> COS{4) 
-0.6536436208636119 
>>> 


为 了 确保 在 Python 2.1 之 前 版 本 的 Python 中 可 以 正常 运行 一 些 新 的 语言 特性 ， 需 要 导 
入 一 个 包 : from future import *。 模 块 束 是 一 个 扩展 名 为 .py 的 程序 文件 。 我 们 可 以 直 
接 引 用 它 ， 节 省 时 间 和 精力 ， 无 须 重 复 与 同样 的 代码 。 这 也 表明 Python 是 开源 的 ， 人 符合 
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“他 山 之 石 可 以 攻 玉 ”的 思想 。 
我 们 试 着 写 一 个 模块 ， 保 存 为 .py 文件 ， 并 调用 ! 
新 建 一 个 addyu.py 文件 ， 内 容 如 下 : 


#aaayYyu .DY 
def add (a=0,b=0): 
下 


此 函数 是 计算 两 个 数 的 和 
当 不 输入 参数 时 ， 默 认 的 是 0+0 


C=a+b 
Brinkt (te) 
det Cest tm B= Cup "dLioyps: 
a 
| 马 遇 全 
BETIt (to 
PELNnE LD re ee 
return 

在 下 面 的 test addyu.py 文件 中 调用 addyu.py 内 的 add(a,b) 函 数 。test addyu.py 文件 的 
代码 如 下 : 

#test addyu.py 

from addyu import add 

a=add (1,2) 

这 里 要 注意 addyu.py 保存 的 位 置 。 为 了 让 Python 解释 器 能 直接 import 默认 安装 路 径 
以 外 的 第 三 方 模块 (如 我 们 目 行 编写 的 模块 )， 需 要 在 系统 环境 中 添加 第 三 方 模 块 路 人 径 ， 即 
新 建 pythonpath 环境 变量 ， 值 为 这 个 模块 所 在 的 路 径 。 具 体 方法 如 下 。 

打开 计算 机 “控制 面板 ”， 选 择 “ 系 统 和 安全 ”， 再 选择 “系统 ”， 单 击 “ 高 级 系统 
设置 ”， 弹 出 如 图 3-4 所 示 的 界面 。 

单 击 “环境 变 量 ” 按 钮 ， 在 弹出 的 界面 中 ， 在 “系统 变量 ”下 单 击 “ 新 建 ”按钮 ， 在 
弹出 的 “新 建 系统 变量 ”对 话 框 中 ， 为 变量 名 填写 “pythonpath”， 为 变量 值 填写 第 三 方 
模块 文件 所 在 的 路 径 即 可 。 

如 这 里 存储 路 径 填 写 了 “Di\python yubg”， 如 图 3-5 所 示 。 

也 可 以 用 临时 访问 文件 的 方法 ， 如 调用 在 E:/yubg/python 中 的 文件 yubg.py: 

1mport sys 

sys.path.append('E:/yubg/python') 

import yubg 


各 3 章 “ 沈 程控 侣 及 乓 数 5 类 人 


E - 站 | 苹 ， 神 制 面板 * 系统 种 安全 } 入 统 ”| 是 | | 潜 计 控制 面 析 2 
I 


充 忻 [中 ” 刻 旺 ([E】 查看 mw 工具 (和 T ”帮助 {H] A 
Sa 各 
和 查看 右 关 计算 机 的 基本 信息 
| Windows 版 本 
哪 远程 设 于 Windeows 10 专业 版 nl 和 
印 系统 苹 护 局 2016 wiicreso 长 WW dQ | 10 
国 言 秋 至 上 设置 Corperatian。 保 竖 所 有 厅 | 同 | I OWS 
| 系统 属性 X 
f 计算 机 过 ”硬件 高 航 。 东航 保护 ”远程 
B 要 进行 六 笃 萄 刷 疏 ， 你 必须 作为 各 理 员 登 录 。 
性 能 
机 沿 党 果 ， 处 理 串 计划 ， 内存 使 用 ， 以 及 谨 拟 内存 
窗 乌 
男 请 净 阅 
Es 


| 姻 


T 一 Js 一 
I | 
Pe 


yubg 的 用 户 变 县 (LU) 


变量 值 
| MO PLUGIN_PATH DFowt Reader\plugins'\ 
| OnsaDrmye CNAUsers\yubg\OneDrive | 
| Path CUsers\yubaq\Anaconda3:C Users\yubaq\Anaconda3\Scripts,,,, 1 
TEMIP BUSERPROFILES AppData\Local\Temp 
ThiP BUSERPROFILLESS AppData\Locah\Temp 
新 建 素 统 变 是 


变量 名 (ly): Python Path 


有 缠 宫 旺 变 县 慎 mn Depython_yubal 


浏览 目录 (D).， | | 。 浏览 交 件 四 
Comg 
JUIwWIBER_ OF PROCESSORS #4 
DS Windows_ NT | 
Path CMWWWINDOOWS\system32C MINDOWSCWMWAINDOOWS System,,., : 
PATHEXT ‘CONEXE,. BAT;. CMD; VBS; VBE;.JS;.J3E; WEF WSH;, Ms 
PROCESSOR ARCHITECT,... x86 
PROCESSOR IDENTIFIER. XB6 Family 16 Miodel 5 Stepping 3, AuthenticAlMiD wf 

| m0. || Mew 

确定 好 洁 


3-5 ”存储 路 径 
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3.7.2 包 (package) 


Python 包 是 一 个 有 层次 的 文件 目录 结构 ， 它 定义 了 由 nm 个 模块 或 n 个 子 包 组 成 的 
Python 应 用 程序 执行 环境 。 

简单 地 说 ， 包 是 一 个 包含 ”init .py 文件 的 目录 ， 该 目录 下 一 定 得 有 _ init .py 文件 
和 其 他 模块 或 子 包 ， 也 就 是 带 有 ”init .py 的 文件 夹 ， 并 不 在 乎 里 面 有 什么 。 

多 个 关系 密切 的 模块 组 织 成 一 个 包 ， 以 便于 维护 和 使 用 。 这 项 技术 能 有 效 避 人 免 名 字 空 
间 冲 突 。 创 建 一 个 名 为 包 名 的 文件 炎 ， 并 在 该 文件 来 下 创建 一 个 init _.py 文件 ， 束 定义 
了 一 个 包 。 可 以 根据 需要 ， 在 该 文件 夹 下 存放 资源 文件 、 已 编译 扩展 及 子 包 。 

举例 来 说 ， 一 个 包 可 能 有 以 下 结构 : 


yubg/ 
I 
lndex .py 
Primitiwve/ 
en 
lines.py 
EF 
text .py 
yubg 1/ 
nec spY 
plot2d.py 
yubg2/ 
it 7 
plot3d.py 


import 语句 使 用 以 下 几 种 方式 导入 包 中 的 模块 : 


limport yubg.Primitive.fill 
# 导 入 模块 yubg .Primitive.fill1， 只 能 以 全 名 访问 模块 属性 
# 例 如 yubg.Primitive,.fill.floodfill(img,x,y,color) 


from yubg.Primitijve import fill 
# 导 入 模块 fi11， 只 能 以 fi11l .属性 名 这 种 方式 访问 模块 属性 
# 例 如 fi11.floodfill (img,x,vy,color) 


from yubg.Primitijve.£fill import floodfill 
# 导 入 fi11， 并 将 函数 floodfi1ll 放 入 当前 名 称 空间 ， 直 接 访 问 被 导入 的 属性 
# 例 如 floodfi1l1l (img,x,y,color) 
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无 论 一 个 包 的 哪个 部 分 被 导入 ， 在 文件 _init .py 中 的 代码 都 会 运行 。 这 个 文件 的 内 
容 人 允许 为 空 ， 不过， 通常 情况 下 ， 它 用 来 存放 包 的 初始 化 代码 。 导 入 过 程 遇 到 的 所 有 
”init .py 文件 都 被 运行 。 因 此 ，import yubg.Primitive.fill 语句 会 顺序 运行 yubg 和 
Primitive 文件 夹 下 的 _init .py 文件 。 

下 面 的 语句 有 上 旷 义 : 


from yubg.Primitive import * 


本 语句 的 原意 是 想 将 yubg.Primitive 包 和 下 的 所 有 模块 导入 到 当前 的 名 称 空间 。 然 而 ， 
由 于 不 同 平台 之 间 文 件 命 名 规则 不 同 (比如 大 小 写 敏感 问题 )，Python 不 能 正确 判断 哪些 模 
块 要 被 导入 。 语 句 只 会 顺序 运行 yubg 和 Primitive 文件 夹 下 的 ”init .py 文件 。 要 解决 这 
个 问题 ， 应 该 在 Primitive 文件 夹 下 的 ”init .py 中 ， 定 义 一 个 名 字 为 all 的 列表 ， 例 如 : 

# yubg/Primitive/ init .py 


X11 |ines "tert E11 | 


这 样 ， 上 和 面 的 语句 就 可 以 导入 列表 中 所 有 的 模块 了 。 
3.7.3 datetime 和 calendar 模块 


time 模块 提供 各 种 时 间 相 关 的 功能 。 在 Python 中 ， 与 时 间 人 处 理 有 关 的 模块 包括 time、 
datetime， 以 及 calendar 等 。 

(1) 必要 说 明 。 

虽然 time 模块 总 是 可 用 ， 但 并 非 所 有 的 功能 都 适用 于 各 个 平台 。 模 块 中 定义 的 大 部 分 
函数 是 调用 C 平台 上 的 同名 函数 实现 ， 所 以 各 个 平台 上 的 实现 可 能 略 有 不 同 。 

(2) 一 些 术 语 和 约定 的 解释 。 

时 间 惟 (timestamp) 的 方式 : 通 第 来 说 ， 时 间 惟 表示 的 是 从 1970 年 1 月 1 日 00:00:00 
开始 按 秒 计算 的 偏 移 量 (time.gmtime(0))， 此 模块 中 的 函数 无 法 处 理 1970 纪元 年 以 前 的 日 期 
和 时 间或 太 芭 远 的 未 来 (处 理 极限 取决 于 C 函数 库 ， 对 于 32 位 系统 来 说 ， 是 2038 年 )。 

UTC(Coordinated Universal Time， 世 界 协 调 时 ): 也 叫 格林 尼 治 天 文 时 间 ， 是 世界 标准 
时 间 。 在 中 国 为 UTC+8。 

DST(Daylight Saving Time): 即 夏 令 时 的 意思 。 

【 例 3-14 】time 模块 : 


>>> import time # 导 入 时 间 模 块 

Cl Cle Ein # 返 回 现在 的 时 间 ， 但 返回 的 是 时 间 戳 
>>> 七 二 

1466828024.2864037 

> 六 记 


> t2=time,. 


>>> 七 2 
at Jun 25 
>>> 


>>> tt2=time. 


>>> 本 之 
上 Jun 25 
>>> 


>>> 七 3=t lme. 


”> 3 


time.struct 


tm min=15, 


> 


>>> 七 4= 七 IIme 。 


>>> 七 4 
人 
>>> 


>>> t4=time. 


> 七 44 
Toat Jun 25 
> 


>>> time.strftime ('%y/%m/%®%d') 


1]6/06/257 
> 


说 明 如 下 。 


tm _ year: 年 。 
tm mon: 月 。 
tm mday: 上 日。 
tm hour: 时 。 


tm min: 分 。 


tm sec: 秒 。 


tm sec=31, 


Python 数据 分 析 基础 


# 有 返回 现在 的 时 间 ， 正 第 的 时 间 格 式 


ctimerl) 


T2125 ZOlL6” 


# 可 以 将 时 间 截 作为 参数 ， 返 回 正常 时 间 格 式 


ctime (t1) 


12:13:44 2016" 


# 人 运 回 当前 的 时 间 元 组 格式 


localtime{) 


tm mday=23, tm hour=1]2, 
tm isdst=0) 


time (tm year=2016, tm mon=6, 


tm wday=>, tm yday=1/i, 


# 返 回 现在 的 时 间 ， 正 党 的 时 间 格 式 


asctime{) 


2 5 ZOLEGY 


# 可 将 时 间 元 组 作为 参数 ， 返 回 正 稍 的 时 间 格 陈 


asctime {(t3) 


Ta ZULo” 


# 返 回 当前 日 期 ， 以 /分 割 ， 也 可 换 成 以 , 分割 


tm_ wday: 一 周 中 的 第 几 天 。 
tm yday: 一 年 中 的 第 几 天 。 
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tm isdst: 夏令 时 (-1 代表 夏令 时 )。 
1. datetime 模块 


datatime 模块 重新 封装 了 time 模块 ， 提 供 更 多 接口 ， 提 供 的 类 有 date、time、 
datetime、timedelta( 时 间 加 减 )、tzinfo( 时 区 )。 

例如 : 

>>> import datetime 


>>> datetime.date.today() # 返 回 当 前 日 期 
datetime.date (2016, 6, 23) 


>>> datetime.date (2016, 4, 10) 
datetime.date (2016, 4, 10) 


>>> datetime.date.today () .ctime () # 返 回 当 前 日 期 时 间 
ISat Jun 25 00:00:00 2016， 


>>> datetime.date.today() .timetuplel() # 人 返回 当前 的 时 间 元 组 格式 
time.struct time (tm year=2016, tm mon=6é, tm mday=25, tm hour=0, tm min=0, 


tm sec=0, tm wday=5, tm yday=177, tm isdst=-1) 


>>> print (datetime.datetime.now!()) # 返 回 当 前 正常 的 日 期 时 间 
中 


>>> 七 三 atetime Qatetime nowr) # 取 当前 日 期 时 间 
>>> m= t+ datetime.timedeltat({(s) # 在 七 时 刻 上 增加 5 天 (默认 是 天 ) 
>”> I 


datetime.datetime (2016, 6 30, 1l3, S686, S23, 998939) 


>>> m = tt + datetime.timedelta (weeks=5) 
>>> print (m) 

2016-07-30 13:56:53.998939 

>>> 


说 明 如 下 。 
timedelta() 的 参数 还 可 以 是 hours=5， 或 者 是 weeks=5、minutes=5、seconds=5， 但 没有 
years 和 months， 因 为 年 和 月 的 时 间 不 定 ， 如 月 份 有 30 天 和 31 天 。 


2. calendar 模块 
此 模块 的 函数 都 是 与 日 历 相 关 的 ， 例 如 打印 某 月 的 字符 月 历 。 星 期 一 是 默认 的 每 周 第 
一 天 ， 星 期 天 是 默认 的 最 后 一 天 。 更 改 设 置 需 调用 calendar.setfirstweekday0 〇 函数 。 
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例如 : 
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>>> import calendar 


>>> Im = 
>>> print (m) 

APr1il 2016 

Mo Tu We Th Fr 

1 

4 5 上 

.0 

18 19 20 21 22 

| 


> 之 


TE rt tr 


>>> Nn 一 
>>> print (n) 


J anuary 

No Tu We Th Fr 
1 

6 7 8 
13 14 15 
a 
a7 28 29 


Lpril 
Ho Tu We Th Fr 

1 
6 7 8 
lL | 
20 21 2 
27 28 20 


July 
No Tu We Th Fr 

1 
ET 
13 1l#4 16 
20 21 22 
27 29 29 


ctober 
No Tu We Th Fr 


5 6 7 
l2 13 14 
19 20 zl 
2B 27 28 


Sa Su 
2 至 
9 10 
L6G EY 
23 24 
30 


calendar.month (2016,4) 


# 返 回 东 年 条 月 的 日 历 


2016 


FebruarYy 
We Ih Fr 
3 4 5 
加 
li? 18 19 
2 25 ob 


Nowember 
We Th Fr 
RE 
yg 10 11 
16 17 18 
23 24 259 
30 


calendar.calendar (2016,w=2,1=1, c=6) 


# 见 后 注 


Mar ch 
Tu We Ih Fr 
| 
Ss 9 10 11 
15 16 17 18 
| 
29 30 31 


Junael 
Tu We Th Fr 

1 
7 8 9 10 
la To Io dt 
Ed es | 
28 29 30 


September 
Tu We Th Fr 
I 

BB 了 8 9 
j3 14 16 18 
20 21 22 23 
27 28 29 30 


December 
Tu We Th Fr 
J 

B 7 8 9 
1 上 3 14 165 i168 
20 21 22 23 
27 28 29 30 
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注 : n = calendar.calendar(2016,w=2,]=1c=6) 一 一 返回 某 年 的 年 历 ， 三 个 月 一 行 ， 间 隔 

为 距离 c， 每 日 宽度 间隔 为 w 字符 ， 每 行 长 度 为 21xw+18+2xc，1 是 每 星期 行 间 距 。 
calendar 模块 还 可 以 处 理 头 年 的 问题 。 判 断 是 否 国 年 、 两 个 年 份 之 间 国 年 的 个 数 。 
例如 : 


>>> jmport calendar 

>>> print (calendar.isleap (2012)) 

工 工 QUe 

>>> print (calendar.leapdavys (2010, 2015)) 
1 

> 之 > 


3.7.4 urllib 模块 


当 我 们 想 下 载 网 上 的 文档 、 数 据 时 ， 也 就 是 编写 大 家 各 说 的 爬虫 ， 第 用 到 urllib 模 
块 ， 有 具体 示例 如 下 : 


>>> import urllib.regquest 

>>> ur = urllib.request.urlopen ("http://www.baidu.com") 
>>> Content = ur.readtl() 

>>> mystr = content.decode ("utf8") 

ey 


>>> print (mystr) 


<IDOCTYPE htm]l> 
Ts OK 
<htmjl> 
<head> 
<meta http-eguiv="content-type”" content="text/html;charset=utf-8"> 
<meta http-egquiv="X-UA-Compatible" content="IE=Edge"> 
<meta content="alwavys" Name="refterrer"> 
<meta name="theme-color™. content="#2932el"> 
<link rel="shortcut icon™ href="/favicon.ico™" type="image/x-icon™ /> 
<link rel="search" type="application/opensearchdescriptiont+xml" 
href="/content-search.xml" 七 It1Le= 百度 搜索 上 /> 
<link rel="icon™." silizes="any" mask 


href="//www.baidu.com/img/baidu.svg"> 


<link rel="dns-prefetch" href="//sl.bdstatic,.com"/> 
<link rel="dns-prefetch™ href="//tl .baidu.com"/> 
<link rel="dns-prefetch™" href="//t2.baidu.com"/> 
<link rel="dns-prefetch™" href=s"//t3.baidu.com"/> 
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<link rel="dns-prefetch™" href="//t10.baidu.com"/> 
<link rel="dns-prefetch™" href="//t1l1.baidu.com"/> 
<link rel="dns-prefetch™" href="//t12.baidu.com"/> 
<link rel="dns-prefetch™" href="//bl.bdstatic,com"/> 


<titlje> 百 度 一 下 ， 你 就 知道 </title> 


> 


由 于 网 页 内 容 太 多 ， 这 里 只 取 了 <title> 标 签 之 前 的 部 分 。 当 然 ， 要 想 绪 取 更 多 的 其 他 
内 容 ， 那 就 要 使 用 更 多 的 搁 术 。 这 里 仪 仅 把 自 页 上 的 内 容 “ 抓 ”了 下 来 。 需 要 注意 : 


urllib.request.urlopent{t"“"http://www.baidu.com") 


这 行 代码 里 的 参数 是 网 址 ，“http:/ ”不 能 少 ， 否 则 会 报销 ! 关于 更 多 的 更 深层 次 的 疏 
虫 技 术 ， 本 书后 面 还 有 介绍 。 


3.8 类 


面向 对 象 编 程 一 一 Object Oriented Programming， 简 称 OOP， 是 一 种 程序 设计 思想 。 
OOP 把 对 象 作 为 程序 的 基本 单元 ， 一 个 对 象 包 合 了 数据 和 操作 数据 的 函数 。 

在 Python 中 ， 所 有 数据 类 型 都 可 以 视 为 对 象 ， 当 然 ， 也 可 以 目 定 义 对 象 。 目 定义 的 对 
象 数 据 类 型 束 是 面 同 对 象 中 的 类 (Class) 的 概念 。 

类 是 所 有 面向 对 象 语言 中 最 难 理解 的 一 个 内 容 。Python 中 的 类 (Class) 是 一 个 抽象 的 概 
念 ， 比 函数 还 要 抽象 ， 这 也 是 Python 的 核心 概念 ， 是 一 个 非常 重要 的 知识 点 ， 我 们 可 以 把 
它 简单 地 看 作 是 数据 以 及 由 存 取 、 操 作 这 些 数据 的 方法 所 组 成 的 一 个 集合 。 

我 们 在 学 习 函 数 (function) 之 后 ， 知 道 了 可 以 重用 代码 ， 那 为 什么 还 要 用 类 来 规划 函数 
呢 ? 因 为 类 有 这 样 一 些 优点 。 

(1) 类 对 象 是 多 态 的 : 也 就 是 多 种 形态 ， 这 意味 着 我 们 可 以 对 不 同 的 类 对 象 使 用 同样 
的 操作 方法 ， 而 不 需要 额外 写 代码 。 

(2) 类 的 封装 : 封装 之 后 ， 可 以 直接 调用 类 的 对 象 ， 来 操作 内 部 的 一 些 类 方法 ， 不 十 
要 让 使 用 者 看 到 代码 工作 的 细节 。 

(3) 类 的 继承 类 可 以 从 其 他 类 或 者 元 类 中 继承 它们 的 方法 ， 直 接 使 用 。 

定义 类 (class) 的 语法 如 下 : 

class NameClass (object): 


def fname (self, name): 


seljf.name = name 


.1oe\， 
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第 一 行 语 法 是 class 后 面 紧 接 类 的 名 称 ， 最 后 带 上 冒号 。 类 的 名 称 首 字母 最 好 大 写 。 

第 二 行 开 始 是 类 的 方法 ， 与 函数 非常 相似 ， 但 是 与 普通 函数 不 同 的 是 ， 它 的 内 部 有 一 
个 self 参数 ， 作 用 是 对 对 象 上 自身 的 引用 。 

这 里 以 一 个 例子 来 说 明和 面 同 过 程 和 面 同 对 象 在 程序 流程 上 的 不 同 之 处 。 假 设 要 处 理学 
生 的 成 绩 表 ， 为 了 表示 一 个 学 生 的 成 绩 ， 面 同 过 程 的 程序 可 以 用 一 个 字典 来 表示 : 

stdl = {'name': 'Michael', 'score': 98) 

std2 = {'name': 'Bob', 'score': 81} 

处 理学 生成 绩 可 以 通过 函数 来 实现 ， 比 如 打印 学 生 的 成 绩 : 

def print score(std): 

PEINt( tO fl tormattetdl namaer ll. stdl soore ly) 

但 如 果 采 用 面 回 对 象 的 程序 设计 思想 ， 我 们 首先 思考 的 不 是 程序 的 执行 流程 ， 而 是 
Student 这 种 数据 类 型 应 该 被 视 为 一 个 对 象 ， 这 个 对 象 拥有 name 和 score 这 两 个 属性 
(Property)。 如 果 要 打印 一 个 学 生 的 成 绩 ， 首 先 必 须 创 建 出 这 个 学 生 对 应 的 对 象 ， 然 后 ， 给 
对 象 发 一 个 print score 消息 ， 证 对 象 目 行 把 目 己 的 数据 打印 出 来 。 

类 定义 如 下 : 


class Student (object): 


def 下 凋 卫 未 (self, name, score): 
Self,.name = name 
Self.score = score 


de DETTE ACOPe(SeLE): 
print{('{0},{1}'.format (self.name, self.score)) 

给 对 象 发 消息 ， 实 际 上 就 是 调用 对 象 对 应 的 关联 函数 ， 又 称 为 对 象 的 方法 (Method)。 
面 癌 对 象 的 程序 写 出 来 就 像 这 样 : 

bart = Student('Bart Simpson', S39) 

lisa = Student ('Lisa Simpson', 87) 

bart .print score{() 

Ln ri rely 

面 回 对 象 的 设计 思想 是 从 自然 界 中 来 的 ， 因 为 在 自然 界 中 ， 类 (Class) 和 实例 (Instance) 
的 概念 是 很 目 然 的 。Class 是 一 种 抽象 概念 ， 比 如 我 们 定义 的 Class Student， 是 指 学生 
这 个 概念 ， 而 实例 (Instance) 则 是 一 个 个 具体 的 Student， 比 如 Bart Simpson 和 Lisa Simpson 
是 两 个 具体 的 Student。 

所 以 ， 面 向 对 象 的 设计 思想 是 抽象 出 Class， 根 据 Class 创建 Instance。 

类 的 方法 与 普通 的 函数 只 有 一 个 特殊 的 区 别 一 一 它们 必须 有 额外 的 第 一 个 参数 ， 但 是 
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在 调用 此 方法 的 时 候 ， 不 用 为 这 个 参数 赋值 ，Python 会 提供 这 个 值 。 这 个 特别 的 变量 指 对 
象 本 和 后， 它 就 是 self。 

虽然 可 以 给 这 个 参数 任何 名 称 ， 但 是 强烈 建议 使 用 self 这 个 名 称 其 他 名 称 都 是 不 
迁 成 使 用 的 。 使 用 一 个 标准 的 名 称 有 很 多 优点 ， 例 如 我 们 写 的 程序 代码 其 他 人 可 以 迅速 识 
别 ， 如 果 使 用 self 的 话 ， 还 有 些 IDLE( 集 成 开发 环境 ) 也 可 以 帮助 我 们 。 

Python 如 何 给 self 赋值 以 及 为 何不 需要 给 它 赋 值 ? 这 里 举 一 个 例子 。 

假如 有 一 个 MyClass 类 和 它 的 一 个 实例 MyObj。 调 用 对 象 的 MyObj.method(argl,arg2) 
方法 时 ，Python 会 目 动 转 为 MyClass.method(MyObj, argl, arg2)， 这 束 是 self 的 原理 了 。 

这 也 意味 着 如 果 有 一 个 不 需要 参数 的 方法 ， 但 是 我 们 仍然 需要 给 这 个 方法 定义 一 个 
self 人 参数。 比较 下 和 面 类 和 函数 的 区 别 。 


关 : 
#coding = utf-8 
# 创 建 实例 类 Test 


class Test (object): 


def add (self,a,b): 


打印 输出 a+b 的 值 ， 注 意 类 方法 需要 添加 self 


print (at+b) 
def display (self): 


和 


打印 输出 字符 串 ， 注 意 类 方法 需要 添加 self， 尽 管 不 需要 参数 


print('hell, here is a Class test.') 


test = Test() # 创建 一 个 类 实例 test 
test .add (1,3) # 调用 方法 
test.display!(!) 

疯 数 : 

def addTwo (a,b):  # 不 需要 加 self 参数 


print (at+b) 


addTwo (1,2) 


类 中 声明 add0 方 法 时 ， 知 不 加 self， 则 提示 错误 。 
Python 编程 中 ， 类 的 概念 可 以 比 作 某 种 类 型 集合 的 描述 。 打 个 比方 : 类 就 是 烤 饼 干 的 
模子 ， 而 一 个 个 的 饼干 就 是 一 个 个 实例 ， 或 者 说 类 就 是 一 个 工厂 ， 实 例 就 是 一 个 个 产品 。 
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创建 类 时 ， 可 以 定义 一 个 特定 的 方法 ， 名 为 _init 0， 只 要 创建 这 个 类 的 一 个 实例 ， 
就 会 运行 这 个 方法 。 可 以 同 _init 0 方法 传递 参数 ， 这 样 ， 创 建 对 象 时 就 可 以 把 属性 设置 
为 我 们 希望 的 值 ， 这 个 _init 0 方法 会 在 创建 对 象 时 完成 初始 化 。 

>>> Class peo: 


def init (self,name,age, 3ex): 


seljf.Name = name 


seli.Age Age 


Self.Sex = sex 
def speak (self): 


print("my name: ™ + self.Name) 


> 之 之 

实例 化 这 个 类 的 对 象 时 : 
>>> zhangsan=peo (" zhanmngsan”"” 24，man ) 
>>> print (zhangsan.Age) 
24 

>>> print (zhangsan .Name) 
zhangsan 

>>> print (zhangsan. Sex) 
Man 

>>> Zhangsan.speak!() 

my name: zhangsan 

>>> 


本 草 小 结 


本 章 主 要 学 习 了 if、for、while 流程 控制 语句 ， 尤 其 使 用 for 循环 过 爵 的 方法 ， 还 有 以 
下 重要 内 容 。 

(1) 函 数 map 和 zip 的 使 用 。 

(2) 函数 和 类 的 编写 格式 。 

(3) try 的 使 用 方法 。 

(4) 包 和 模块 的 导入 方法 。 


练 


(1) 在 0~9 之 间 随 机 选择 1 个 整数 ， 操 作 100 次 ， 统 计 共 有 几 种 数字 ， 并 用 字典 的 方 
式 输出 每 个 数字 的 出 现 次 数 ， 键 是 出 现 的 整数 ， 值 是 出 现 的 次 数 。 
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(2) 将 整数 2016 的 每 个 数字 分 离 出 来 ， 依 次 打印 输出 。 

(3) 已 知 字 典 fmname” “python”, “book”: “python” “lang”: “english”}， 要 求 将 该 字典 的 
键 和 值 对 换 。( 注 意 ， 字 典 中 有 键 的 值 是 重复 的 ) 

(4) 已 知 一 段 程序 中 ， 用 列表 保存 几 个 用 户 名 ， 例 如 [‘xiaoxifeng’, “cangcang"，'tom”]， 
要 求 通 过 终端 输入 新 的 用 户 名 ， 判 断 所 输入 的 用 户 名 是 否 为 已 经 设置 好 的 用 户 名 ， 并 且 对 
判断 结果 给 出 友好 的 提示 。 如 有 果 不 是 ， 允 许 用 户 多 次 尝试 输入 ， 直 到 正确 为 止 。 

(5) 找 一 段 英文 的 文本 ， 统 计 该 文本 中 单词 的 出 现 次 数 。 比 如 “How are you. How are 
you.” 的 统计 结果 是 {“how”:2, “are”2“you”:2} 。 

(6) 已 知 字符 串 a=“aAsmr3idd4bgs7Dlsf9eAF”， 要 求 编写 程序 ， 完 成 如 下 任务 . 

QD 将 字符 串 中 的 数字 取出 ， 并 输出 成 一 个 新 的 字符 串 。 

@) 统计 字符 串 中 每 个 字母 的 出 现 次数 ( 和 忽略 大 小 写 ， 即 认为 a 与 A 是 同一 个 字母 )， 
并 输出 成 一 个 字典 。 像 {'a’:3,‘b’:1} 这 样 。 

(3) 去 除 字 符 串 多 次 出 现 的 字母 ， 不 区 分 大 小 写 。 如 ‘aAsmr3idd4bgs7Dlsf9eAF’ 经 过 
去 除 后 ， 输 出 ‘asmr3id4bg7lf9e’. 

(7) 有 一 百 个 瓶子 ， 分 别 编 号 为 1~100。 现 在 有 人 拿 枪 从 第 一 个 开始 射击 ， 每 枪击 破 
一 个 ， 束 过 一 个 ， 一 直到 一 轮 完成 。 接 着 在 剩 下 的 瓶子 里 面 再 次 击破 第 一 个 ， 间 隔 一 个 再 
击破 一 个 。 问 最 后 剩 下 完整 的 瓶子 是 这 一 百 个 瓶子 里 的 第 几 个 ? 

(8) 写 一 段 程序 ， 能 够 实现 如 下 功能 ， 

CD 输入 英文 的 姓名 。 

”按照 字典 顺序 将 所 有 姓名 排序 ， 

加 输入 完毕 ， 将 排序 结果 打印 出 来 。 

(9) 编写 一 个 函数 ， 实 现 摄氏 温度 和 华氏 温度 之 间 的 换算 ， 换算 公式 为 F=9C/5 + 32。 
要 求 输入 单位 是 摄氏 度 的 值 ， 能 够 显示 相应 的 华氏 度 值 ， 反 之 亦 然 。 

(10) 制 做 一 个 加 法 计算 器 ， 要 求 用 户 先 后 输入 两 个 数 ， 能 够 计算 出 结果 ， 并 打印 出 加 
法 算式 。 

(11) 为 老师 们 编写 一 个 处 理 全 班 考 试 成 绩 的 程序 。 要 求 如 下 。 

CD 能 够 依次 录入 班级 同等 的 姓名 和 分 数 。 

@ ”录入 完 年 ， 则 打印 出 全 班 的 平均 分 、 聂 高 分 的 同学 姓名 和 分 数 。 

(12) 编写 工资 额 计 算 器 ， 要 求 如 下 。 

GD 确定 每 月 的 基本 工资 。 

@ 输入 每 月 的 实际 应 当 工 作 天 数 。 

@@ 输入 当月 的 请 假 天 数 ， 如 果 请 假 天 数 小 于 等 于 2 天 ， 对 工资 无 影响 ; 大 于 2 天 小 
于 等 于 7 天， 扣除 当 月 基本 工资 的 10%; 大 于 7 天 小 于 等 于 14 和 天， 扣除 当 月 基本 工资 的 
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50%; 大 于 14 天 ， 扣 除 全 月 工资 。 

由 ”如果 当 月 实际 工作 天 数 和 应 工作 天 数 一 样 (不 算 加 班 )， 则 增加 基本 工资 的 209%6。 

曙 如果 当 月 有 加 班 ， 则 按照 加 班 的 天 数 和 当月 的 日 工资 (基本 工资 /实际 工作 天 数 ) 计 
算 加 班 费 。 

@ 输入 最 终 应 得 工资 . 

(13) 有 多 少 个 三 位 数 能 被 17 整除 ? 编写 程序 ， 将 这 些 数值 显示 出 来 。 

(14) 编写 一 个 猜 数 游戏 ， 要 求 如 下 。 

GD 用 户 可 以 输入 无 限 多 次 数字 。 

@ ”如果 猜 中 了 数字 ， 则 要 输出 用 尸 猜 测 的 次 数 和 数字 结果 。 

(15) 编写 程序 ， 判 断 一 个 数 是 否 为 素数 。 

(16) 创建 PayCalculator 类 ， 拥 有 pay rate 属性 ， 以 每 小 时 人 民 币 数量 为 单位 。 该 类 拥 
有 compute pay(hours) 方 法 ， 计 算 给 给 定 工作 时 间 的 报 柄 ， 并 返回 ， 

(17) 创建 SchoolKid 类 ， 初 始 化 小 孩 的 姓名 、 年 龄 。 也 有 访问 每 个 属性 的 方法 和 修改 
属性 的 方法 。 然 后 创建 ExaggeratingKid 类 ， 继 承 SchoolKid 类 ， 在 子 类 中 履 盖 访问 年 龄 的 
方法 ， 并 将 实际 年 龄 加 2。 
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mm Python 数据 分 析 基 础 
本 章 主 要 介绍 Python 在 数据 处 理 、 数 据 分 析 、 数 据 可 视 化 方面 的 第 用 方法 与 技巧 。 
4.1 天 于 Pandas 
4.1.1 什么 是 Pandas 


Pandas 是 Python 的 一 个 数据 分 析 包 ， 最 初 由 AQR Capital Management 于 2008 年 4 月 
开发 ， 并 于 2009 年 底 开 源 面 市 ， 目 前 由 专注 于 Python 数据 包 开 发 的 PyData 开发 团队 继续 
开发 和 维护 ， 属 于 PyData 项 目的 一 部 分 。 

Pandas 最 初 被 作为 金融 数据 分 析 工 具 而 开发 出 来 ， 因 此 ，Pandas 为 时 间 序 列 分 析 提 供 
了 很 好 的 支持 。Pandas 的 名 称 来 自 于 面板 数据 (panel data) 和 Python 数据 分 析 (data 
analysis)。panel data 是 经 济 学 中 关于 多 维 数据 集 的 一 个 术语 ， 在 Pandas 中 ， 也 提供 了 
panel 的 数据 类 型 。 


4.1.2 ” Pandas 中 的 数据 结构 


Pandas 中 引入 了 两 种 新 的 数据 结构 Series 和 DataFrame， 这 两 种 数据 结构 都 建立 
在 NumPy 的 基础 之 上 。 

Series: 一 维 数 组 系列 ， 也 有 称 序 列 的 ， 与 Numpy 中 的 一 维 array 类 似 。 二 者 与 
Python 基本 的 数据 结构 List 也 很 相近 。 

DataFrame: 二 维 的 表格 型 数据 结构 。 很 和 多 功能 与 R 中 的 data.frame 类 似 。 可 以 将 
DataFrame 理解 为 Series 的 容 邵 。 以 下 内 容 主 要 以 DataFrame 为 主 。 

Panel: 三 维 的 数组 ， 可 以 理解 为 DataFrame 的 容 妖 。 


4.1.3 Pandas 的 安装 方法 


在 安装 Pandas 之 前 ， 无 须 安装 任何 Python 及 其 生生 产品， 直接 下 载 Anaconda， 官 方 
由 址 汶 https://www.continuum.io/downloads，Anaconda 发 展 更 新 较 快 ， 本 书 下 载 的 是 
Python 3.5 版 本 ，32 位 (看 个 人 机 右 ， 有 有 的 是 64 位 )。 

下 载 界 面 如 图 4-1 所 示 。 

下 载 后 的 文件 如 下 : 


) Anaconda3-2.4,.1-Windows-x806,.exe 应 用 程序 306 282 KB 


直接 双击 安 厂 ， 可 目 选 安 闭 位 置 。 安 猴 完 成 后 ， 在 开始 沫 单 里 可 以 看 到 如 岁 4-2 所 下 
的 沫 单 。 
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一 | (号 人 和合) httpsy/www.continuumiordownloads 四 = 六 已 ] I Download Anaconda no... 下 ] ] 


Which version should | download and install? 


Because Anaconda includes Installers for Python 2.7 and 3.5, either is fine. Using either version, you can 
use Python 3.4 with the conda command. You can create a 3.5 environment with the conda command if 


YOU Ye downloaded 2.7 一 and vice versa. 


Ifyou don't have time or disk space for the entire distribution, try Minicsonda. which contains onby conda 


and Python. Then install just the individual packages you want throueh the conda command. 


Anaconda for Windows 


PYTHON 2.7 PYTHON 3.5 


WWINdoOwvs S44-bit WAWwImdewws S44-bit 


3B7 Hi 392Hi 


Vindows 32-bit 
raphical Installer 


Vindows 32-bit 
raphical Installer 
324M 318hl 


Behind afirewall* Use these zipped Vindows installers. 


图 4-1 Anaconda 官网 下 载 弄 面 


Anaconda3 [32-brt) 
新 建 
Anaconda Cloud 


如 


Anaconda Prompt 


新 结 


IPython 


Jupyter Notebook 
半 奸 Microsoft Edge 
Jupyter QTConsole 
新 建 大 hce By 
从 任意 位 置 音 看 


-4 * Mm 
| 


新 建 
Reset Spyder Settings 


和 Ti 


北京 


中 国 山西 省 太 
原市 胜利 街 
259, 030009 


4-2 Anaconda 菜单 


安装 完 Anaconda， 就 相当 于 安装 了 Python、IPython、 集 成 开发 环境 Spyder 以 及 一 些 
安装 包 等 。 
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应 注意 : Windows 7 下 64 位 安装 一 样 进行 ， 但 有 些 机 器 安装 完毕 后 ， 在 开始 荣 单 栏 内 
找 不 到 Spyder， 但 可 以 运行 anaconda prompt， 有 再 键入 Spyder 即 可 运行 。 
Spyder 是 使 用 Python 语言 进行 科学 编程 的 路 平台 开源 集成 开 友 环境 ， 它 的 最 大 优点 束 
是 模仿 MATLAB 的 “工作 空间 ”， 第 一 次 打开 比较 慢 。Spyder 的 使 用 比较 简单 ， 下 面 介 
绍 它 的 几 个 基本 功能 。 
代码 提示 


代码 提示 是 开发 工具 必 备 的 功能 ， 当 需要 Spyder 给 我 们 进行 代码 提示 时 ， 只 需要 输入 
函数 名 的 前 几 个 字母 ， 再 按 下 Tab 键 ， 即 可 得 到 IDE 的 代码 提示 ， 如 图 4-3 所 示 。 


[I cpyder (Python 43 
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书本 
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data 人 Eb.get grouptg}[s]; 

data_pca_Eb.get eroupte}[l], 
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C=C0l1o0rs[EeE], 

marker=markers[g];, 2 el 

cmap=plt. cm.Paired | 国 casole 1 问 | 国 天 
i E | 上 | Fi — A Cg ie se si ao EAI 
接 下 Tab 键 ， 即 可 得 到 和 代 西 提示 1! Python 3.5.1 |Anaconda 2.5.8 (CEA-bity| tdefault, Jan 29 2816, 15:@1:46) [MSC v.1988 * 

时 bit [LAMDE4Y] 


Type "copyrieht™”, "credits™” or "license” for more information,. 


. En .8.3 -- An enhanced Interactive Python. 
-> INntroduction and overview of IPython's features. 
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Im [1]: 


JFvythor comnsole 


Permissiomns: RY End-otlineas: CRLF Encoding: UTF-3-GUJESSED Line: B1 Colurmn: 5 hermory; 7 各 


图 4-3 Spyder 界面 
仿 变量 浏览 Ts 
变量 是 代码 执行 过 程 中 暂 留 在 内 存 中 的 数据 ， 我 们 可 以 通过 Spyder 对 变量 承载 的 数据 
进行 查看 ， 方 便 我 们 对 数据 进行 处 理 。 
如 图 4-4 所 示 ， 变 量 浏览 框 中 包含 了 变量 的 名 称 、 类 型 、 大 小 以 及 基本 预览 ， 双 击 对 
应 变量 名 所 在 的 行 ， 即 可 打开 变量 的 详细 数据 进行 查看 。 
3. 图 形 查看 


绘图 是 我 们 进行 数据 分 析 时 必 备 的 技能 之 一 ， 一 款 好 的 工具 ， 必 须 具备 图 形 绘制 的 功 
能 ，IPython 窗 体 中 集成 了 绘图 功能 ， 如 图 4-5 所 示 。 
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世 Spyder [Python 3.5) 


nsgles -iocls Wew Help 


: 了 医 员 Ss 于 a 车 EE : 区 可 | | 二 = CUsoarcslinanfernele eamants" Frihen Seripts 
县 下 Er 
| 5.1.pvt 国 国 Name TYpe Slze Walue 
43 markers = 


局 : . 观 击 对 应 的 变量 名 ， 就 可 以 打开 数据 框 了 ! = 一 dlict -: - by， Be rk 


i arrayt[l 5.1, 3.5 1.4;, .2], 


arrayi[l[-2.68428713, -全 .32668731], 
[-2.715336@62, ,16955695], 


a Pe = a me 
feat64 [-2.213539862, .159556585 = 


一 


int32 2 
datasets.base.Bunch 5 1'data': arra. .dtype="*Ie"' 了 


dict 3 et ee We ed 


rray[[ 昌 ， 昌 ， 关 ， 站， 归 ， 站 ， 问 ，， 闪 ， 疙 ， 特 ， 自 ， 包 ， 


In 全 2 种蛋。 由。 和 和， 和， 。。。 


Dbject inspector | Variable explorer | File END] orer 


IPython CATsvle 


应 看 
Dz 
必 由 
心 石 
De" 


15 


二 日 
Resire [| Fackear omd eol or D5 


下 册 
一 自 - 
-1.0 


! 


Line: #2 Colurmnz 1 Miemory: ?四 多 


Spyder [Python 3,5) 加 
Filse Edit Search Source Run Debug Consoles Toeols 划 emw Halp 


回忆 国 晤 je 压 导 吉 玉 [Ma 二 阳 画 | 国 加 | 以 芭 和 ee 


了 dii or ~ DAFIMS. Is.1. py [= ari eble expl orer 


=| ep -| Name Lalue 


2 


tolors 十 疆 着 


arrayet[[l Sls 335s 1s4s 2], 
[Ss 3 ss Ly B21 
arravyt[[-2.684268714, -B.J2668731], 
[-2.71539862, 向 16955685 ] 。 
arrayt[[-2.68428713, -各 .32668731,， 自 . 自 21... 
[-2.71539862, 全 .16955685 ... 


dats floatsd 器 50. 由 
data pra 2 floatSd (50, 2 


data pca_3 floated 和 50, 吉 
SA Fig = plt.figuretl, fiesire=td, GY)Y 
si ax = Axes30tfig, elev=-156, arin=]1®@) | i 1 2 
5 Ub jaet incpactor Varyiable iplorer 
S53 pea_3 = PCA(nN_ components=3y = 
54 data pea 3 = pca_ 3d.Tit transftformn(data!} 


6 Console 中 
6 data pca_eb = pandas.DataFframeldats pea_3).eEroupby ltareety A 日 


S57 
5s8 Tor BE in data pca Eb.groups: 6 
EE Bx. Scatterrt -器 .4 

data_pca eb.get eroupteg)[e], i 

data_ pca_Eb.Eect Eroupte}[1];, a 

data prea gb.pget grouptg}[2], D0 

c=colors[g]; 

marker-markers[eE], 

cmap=plt, cm, Paired 


串 计 碟 布 和 急 如 |x 


2 


58 二 次 遍 闹 
B59 pca 2 = PCAfn components=2) 
Hdata pca 2 = pcra 2.1it transfornrdata) 
2data pea eb = pandas.DataFrameldata pea _ 2).Eroupbylitarget) 
?3 
74 for 目 1n data pca gb.Broups: 
?75 Plt. scattert 
data pca_ Eb. gat grouptg}[ls], 
data_ pca Eb.get Eroupte}[l1];, 
c=c0]ors[E], 
marke r=marke 厂 至 [Le] 


Permissions: RN 


4-5 ”Spyder 绘图 界面 


了 解 以 上 三 点 功能 ， 基 本 上 就 可 以 使 用 Spyder 在 数据 分 析 过 程 中 尽情 发 挥 了 。 
最 后 ， 需 要 提醒 大 家 的 是 ， 执 行 代码 时 必须 先 选中 代码 ， 然 后 再 按 下 CtrltEnter 组 合 
键 ， 如 果 没 有 选中 代码 ， 只 是 把 光标 放 在 代码 对 应 的 行 ， 按 下 Ctrl+Enter 组 合 键 ， 是 不 能 


mm Python 数据 分 析 基 础 


执行 代码 行 的 。 执 行 选 定 的 代码 也 可 以 用 鼠标 单 击 Run cell 按钮 来 完成 ， 如 图 4-6 所 示 。 


总 Spyder (Python 3.5) 
Fle Edit Search Source 
一 LD 
同 L_ i Wd : 
Editor ~ C:\Vsers\yubs\OneDrive\lN 
= a3. py [Ed 


Debug Consoles Tools View Help 


ED 人 OP 玖 四 XX + 


wordol oud\jiebaD. py 


I untitled22. py 医 | | Le Wordcloud. py* 回 | A Word. py 9 ER jiaebaD.r 


I. guanjian. py LN 


4 jieba. load userdict("userdict,.txt") 
5 import jieba.posseg as psepg 

6 jieba.add word( "石墨 烯 ?') 

2 医 4 mn 


Eimport jiebal Bc 
from wordcloud import WordCloud 


12 s1 = ”人 在 克 和 鲁 仇 夫 时 代 ， 巴 萨 联赛 中 完成 了 四 六 禅 : 后 二 个 夺 车 都 伍 在 末 轮 逆 萄 获得 的 。 在 91/92 赛 李 ， 巴 萨 末 有 


13 s2 = ”了 巴萨 上 一 次 压 哨 村 冠 ， 点 生 在 89/18 赛 季 中 。 末 轮 前 巴萨 领先 皇马 1 分 ， 只 要 高 球 就 将 村 填 。 末 轮 中 巴萨 4 
14 s3 = "和 广 48/49 某 李 中 ， 了 巴 防 末 轮 2 比 1 侠 下 同城 死 融 由 班 牙 作 : 以 2 分 仙 拟 桂冠 。52/53 替 李 ， 巴 萨 末 轮 3 儿 8 破 胜 守 
15 

16 mlist = [sl1,s2,5s3] 

17 word list = [  “.join(jieba.cut(sentence}) for sentence in mylist] 

18 mew text = ” “.Join(word list) 


19 wordcloud = WordCloud(font path='simhei.ttf'’, background color="black").generate(new text) 
28 plt.imshow(wordcloud) 

1 plt.axis("off") #0ofFfF Eon， 举 室 而 放 闹 人治 斥 浆 席 

22 plt .show() 


23 


4-6 ” 单 击 Run cell 按钮 执行 选 定 的 代码 


如 果 在 安装 时 遇 到 其 他 问题 ， 可 以 在 如 下 网 址 中 找到 各 种 操作 系统 的 详细 安装 指导 : 


http://www.datarobot.com/blog/getting-up-and-running-with-python/ 


4.1.4 在 Anaconda 中 安装 第 三 方 库 


在 Windows 下 安装 Python 和 很 多 包 ， 对 于 新 手 来 说 ， 总 觉得 是 一 件 很 痛 舌 的 事情 。 
所 以 许多 人 喜欢 使 用 Anaconda， 最 方便 的 一 点 是 它 整 合 了 大 量 的 依赖 包 。 
如 下 网 址 页 面 列 出 了 它 所 包含 的 全 部 依赖 包 : 


http://docs.continuum.io/anaconda/pkg-docs.html 


其 中 ， 比 如 科学 计算 的 numpy、theano 等 ， 都 应 有 尺 有 。 

尽管 Anaconda 整合 了 很 多 常用 的 包 ， 但 它 也 不 是 万 能 的 ， 有 些 包 就 没有 整合 进来 ， 
比如 有 谍 虫 scrapy。 

不 过 安装 scrapy 包 比 较 人 简单 ， 只 需要 在 “开始 ”及 蛙 中 选 定 “Windows 系统 ”， 音 击 
“命令 提示 符 ”， 在 弹出 的 窗口 命令 行 中 输入 “conda install scrapy”， 就 可 以 安装 了 。 

图 4-7 是 安装 scrapy 包 的 截图 。 
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画 命令 提示 符 _ ODO x 


a 


,Users\yubg>conda install scrapy 
Usine Anac -onda loud apl SLie https: api. anaconda. oreg 
retchine packaee metadata 

oO0lvine pe 这 specificatlio 
Rrror: Te package specificatlions. 
reneratine hint: 


[ CONMPLETE ] | 样 笠 笠 群 笠 相 笠 样 笠 笠 笠 笠 样 音 在 笠 科 样 笠 笠 科 笠 笠 样 样 笠 笠 笠 群 笠 笠 冬 寿 样 样 笠 科 笠 群 科 样 样 样 笠 笠 笠 笠 科 和 妊 | 1 OO 吕 


Hint: the following packages conflict with each other: 
一 ScIrapYy 


- python 3. S* 


3? 号 a 
Use conda info Scrapy etc. to see the dependencies for each package. 


Note that the followinz features are enabled: 
— WCl4 


4-7 ”安装 scrapy 包 的 界面 


4.2 数据 准备 
4.2.1 数据 类 型 


Python 各 用 的 三 种 数据 基 型 是 logical、numeric、character。 
logical 即 布尔 型 ， 只 有 两 种 取 仁 ，0 和 1， 或 者 芮 假 (true、false)。 
运算 规则 : &( 与 ， 有 一 个 为 假 则 为 假 ); |( 或 ， 有 一 个 为 真 则 为 其 ); not( 非 ， 取 反 )， 具 
体 如 表 4-1 所 示 。 
表 4-1 布尔 运算 规则 


运算 符 | 注释 运算 规则 
& 两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 假 ， 则 结果 为 候 
Pe 两 个 逻辑 型 数据 中 ， 其 中 一 个 数据 为 真 ， 则 结果 为 真 


取 相 反 值 ， 非 下 的 逻辑 型 数据 为 假 ， 非 假 的 逻辑 型 数据 为 下 


not 


numeric 即 数值 型 。 

运算 规则 : +、-、*#、/ 。 

character 如 字符 型 ， 使 用 单 引 与 (或 者 双 引 瑟 (@) 包 围 起 来 。 

Python 数据 类 型 变量 的 命名 规则 如 下 。 

(1) 变量 名 可 以 由 a~z、A~Z、 数 字 、 下 划 线 组 成 ， 首 字母 不 能 是 数字 和 下 划 线 。 
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(2) 大 小 写 敏 感 。 


(3) 变量 名 不 能 为 Python 中 的 保留 字 。 如 不 能 是 and、continue、lambda、or 等 。 


4.2.2 ”数据 结构 


数据 结构 是 指 相互 之 加 存在 的 一 种 或 多 种 特定 关系 的 数据 类 型 的 集合 ， 主 要 有 Series 
(系列 ) 和 Dataframe( 数 据 框 )。 


1. Serles 


Series 即 系 列 ( 也 称 序 列 )， 用 于 存储 一 行 或 一 列 的 数据 ， 以 及 与 之 相关 的 索引 的 集合 。 
使 用 方法 如 下 : 


Serieet[l To 2 2 ] ndez=[l 守 31 9020 


例如 : 


In [1] :from pandas import Series 
X = Serles([' av 2， 旷 牧 5] ,index=[1,2,3]) 
的 的 -各 


Outi[z]: 
1 a 
2 
3 螃蟹 


dtype: object 


TT | 
Out[3] :' 旷 人 蟹 " 


一 个 系列 允许 存放 多 种 数据 类 型 ,索引 也 可 以 省 略 ; 可 以 通过 位 置 或 者 案 引 访问 数 


如 X[3]， 返 回 ' 虹 伍 。 


Series 的 索引 index 可 以 省 略 ， 默 认 从 0 开始 ， 也 可 以 指定 索引 。 


在 Spyder 中 写 入 代码 : 


from pandas import Series 
A=Series ([1,2,3]) # 定 义 系 列 的 时 候 ， 数 据 类 型 不 限 


print (A) 


# 输 出 如 下 

0 下 # 第 一 列 的 0 到 2 就 是 数据 的 索引 ， 也 就 是 位 置 ， 计 数 从 0 开始 
1 2 

2 3 
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dtype: int64 


from pandas limport Series 
A=Series([1,2,3],index=[1,2,3]) # 可 自 定义 索引 ， 如 : 123; ABCD 等 
print (A) 


1 J 
2 2 
3 
dtype: int64 #dtype 指 同 数据 类 型 ，ini64 是 指 64 位 整数 


from pandas ImPort Series 
A=Series ([1,2,3],index=['A','B',"'C’']) 
print (A) 


A J 
B 2 
中 3 
dtype: int6ed 


注意 容易 犯 的 错误 : 


from pandas import Series 
A=Series([1,2,3],index=[A,B,C]) 
print (A) 


Traceback {most recent call last): 


File "<ipvthon—input-=-10—ddd51933cbd>", line 3, 1in <modules 
A=Seriest{[l1,2,3],index=[A,B,C]) 


NameError: name ''B' is not defined 


因为 这 里 A、B、C 都 是 字符 串 ， 需 要 使 用 引号 。 
访问 系列 值 时 ， 需 要 通过 索引 值 来 访问 ， 系 列 的 索引 index 和 系列 值 是 一 一 对 应 的 关 
系 ， 如 表 4-2 所 示 。 
表 4-2 系 类 索引 与 系列 值 对 应 


系列 索引 系列 值 
0 14 
1 26 
31 


/2MN. 
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例如 : 


from pandas import Series 

A=Serles([14,26,31]) 

print (A) 

Peint (tar # 系列 的 位 置 从 0 开始 的 ， 第 一 个 数 从 0 开始 计数 
Brinerats]) # 超 出 index 的 总 长 度 会 报错 


0 ] 4 

下 20 

2 31 

dtype: int64d 

26 

KeyError: 5 # print (A[5]) 时 因为 案 引 越界 出 错 


from pandas import Series 
A=Series([14,26,31],index=['first','second’','third"]) 

print (A) 

print (A['second']) # 如 果 设 置 了 index 参数 ， 也 可 通过 参数 来 访问 系列 值 


first 14 
second 26 
七 于 工本 31 
dtvype: int6e4 
26 


执行 下 面 的 代码 ， 看 看 运行 的 结 打 : 


from pandas ijmport Series 


# 可 以 混合 定义 一 个 序列 


x = Series(['a', True, 1], index=['first’', second', 七 hhILIOG7 ] ) 


# 访 问 
xi1] 


# 根 据 jndex 访问 


xX["'second'] 


# 不 能 越界 访问 
xX|3] 


# 不 能 退 加 单个 元 了 隶 ， 但 可 以 人 退 加 系列 
x.appendl('2"') 
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# 追 加 一 个 系列 
n = Series{(["'2"']) 


x .append (n) 


# 需 要 使 用 一 个 变量 来 承载 变化 ， 即 x .append (n) 返回 的 是 一 个 新 序列 


XxX 三 X .append (in) 


# 判 断 值 是 否 存 在 ， 数 子 和 地 辑 型 (True/False) 是 不 需要 加 引号 的 
2 in XxX.values 


7 Im XxX.Vvalues 


# 切 片 
回国 = 二 加 


# 定 位 获取 ， 这 个 方法 经 常用 于 随机 抽样 
xlhlegr er 1]] 


# 根 据 index 删除 
x.drop(0) 
其 电工 GBP "first") 


# 根 据 位 置 删除 ， 返 回 新 的 序列 
X.QroOP (x.index[3]) 


# 根 据 值 删除 ， 显 示 值 不 等 于 2 的 系列 ， 即 删除 2， 返回 新 序列 


xX[2!=X.Values] 


# 通 过 值 访问 系列 号 Index 


x.lndex[x.values=='a "| 


# 修 改 series 中 的 index: 可 以 通过 赋值 更 改 ， 也 可 以 通过 reindex() 方 法 
xX. lndex=[0,1,2,3,4] 


# 可 将 字典 转化 为 Series 


s=Series({''a' :1l,'b':2,'c':3}) 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 用 
于 控制 升序 或 降序 ， 默 认为 升序 。 也 可 使 用 reindex0 方 法 重新 排序 。 

在 Series 上 调用 reindex 重 排 数 据 ， 使 得 它 符 合 新 的 索引 ， 如 果 索 引 的 值 不 存在 ， 就 
引入 缺失 数据 值 : 
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#reindex 重 排序 

Salem pa a 
Ob] 

tt [eS] 

| 4 .5 

b 2 

忌 了 

区 3.6 

dtype: floaté6d 


a = OB | TOTTIder([ a TE Se Wd Wer | 


obBj2 

Out [26] 
己 = 
b 所 
3.6 
| 2 
二 NaN 


dtype: floate6ed 


oDJ.reindex([ ' a'r br, Cry ‘dr "ej]: fill value=0) 
Out[27]: 

a 3 
也 2 
区 3-.6 
局 5 
二 0 
dtype: floatg6d 


Series 对 象 本 质 上 是 一 个 NumPy 的 数组 ， 因 此 NumPy 的 数组 处 理 图 数 可 以 直接 对 


Series 进行 处 理 。 但 是 Series 除了 可 以 使 用 位 置 作 为 下 标 存 取 元 素 外 ， 还 可 以 使 用 标签 存 
取 元 素 ， 这 一 点 与 字典 相似 。 每 个 Series 对 象 实际 上 都 由 两 个 数组 组 成 。 


@ index: 它 是 从 NumpPy 数组 继承 的 index 对 象 ， 保 存 标签 信息 。 

@ values: 保存 值 的 NumPy 数组 。 

注意 如 下 几 点 。 

(1) Series 是 一 种 类似 于 一 维 数 组 (数组 : ndarray) 的 对 象 。 

(2) 它 的 数据 类 型 没有 限制 (各 种 NumPy 数据 类 型 )。 

(3) 它 有 索引 ， 把 索引 当 作 数据 的 标签 (Kkey) 看 待 ， 类 似 于 字典 (只 是 类 似 ， 实 质 上 是 


数组 )。 


(4) Series 同时 具有 数组 和 字典 的 功能 ， 因 此 它 也 支持 一 些 字 — 典 的 方法 。 
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2. DataFrame 


DataFrame 是 用 于 存储 多 行 和 多 列 的 数据 集合 ， 是 series 的 容 右 。 使 用 方式 如 下 : 


Dataframe (columnsMap) 


例如 : 


df=DataFramel( 
{“ 忆 Ge :Series([21,22,23]),'name'"':Seriest{[ Yubg', Jophn ， Jim’'])}, 
index=[0,1,2]) 


其 中 的 数据 行列 位 置 如 图 4-8 所 示 。 


列 人 1 位 置 


总 六 两 列 这 个 位 置 df.at[2, "marme'] 


图 4-8 DataFrame 数据 行列 位 置 示 例 


又 如 : 


from pandas ijmport Series 
from pandas jmport DataFrame 
df=DataFrame ({'age':Serlies([26,29,24]), 'name':Series(['Ken', 'Jerry', 'Ben 


eh 
Print (df) 


#3 六 注意 :; DataFrame 中 单词 的 写法 是 首 字母 大 写 。 索 引 不 指定 时 也 可 以 省 略 。 使 用 数 
据 框 时 ， 要 先 从 pandas 中 导入 DataFrame， 数 据 访 问 方式 如 表 4-3 所 示 。 
表 4-3 ”数据 框 的 访问 方式 
沪 问 位 置 备注 
访问 列 变量 名 [ 列 名 ] 访问 对 应 的 列 。 如 dff'name”] 


访问 行 变量 名 [n:m] 访问 nm 行 到 m-l 行 的 数据 。 如 df[2:3] 


访问 位 置 


田 Python 数据 分 析 基础 


续 表 


备 注 
访问 nl 到 (n2-1) 行 ，ml 到 (m2-1) 列 的 数据 。 


访问 块 ( 行 和 列 ) 变量 名 .iloc[n1:n2, ml:m2] 


访问 位 置 


如 df.iloc[0:3, 0:2] 


变量 名 .at[ 行 名 ， 列 和 名] 访问 ( 行 名 , 列 名 ) 位 置 的 数据 。 如 df.at[1, ‘name] 


具体 示例 如 下 : 


A=df["'age'] # 获 取 age 的 列 值 
print (A) 


0 26 
1 有 
2 24 


Name: age dtype: jint64 


B=df [1:2] # 获取 序号 是 第 一 行 的 值 (其 实 是 第 二 行 ， 从 0 开始 的 ) 


ErINt 1{B) 


=he [= 
1 29 


到 二 让 三- 


Jerry 


c=df .iloc[0:2,0:2] +# 获 取 第 0 行 到 2 行 ( 不 含 ) 与 第 0 列 到 2 列 {不合 ) 的 块 


rnt te 

Age name 
U 26 Ken 
1 29 Jerry 


D=df .at [0, 'name'] # 攻 取 第 0 行 与 name 列 的 交 又 值 
Print {(D) 


Ken 


执行 下 面 的 代码 并 得 看 运行 结 琳 : 


from pandas import DataFrame 
dfl1 = DataFrame l(t 
aoe us 2ly 2 23]5 
Tame : | 人 EN ， ‘Jonn , JIMI Jj]}); 


df2 = DataFrame (data=1 
age™s [ls 2Z2r 231 
Tame 2 KEN . “JORnmn  . “TEME” 


}, index=['first', ‘second', ‘third'l]); 
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# 按 列 访问 
df['" age'] 
# 控 行 访问 
至 提 二 让 因 | 呈 | 必 -2 


# 按 行列 号 访问 
df Tomlo Ll U1 


# 按 行 索 引 名 、 列 名 访问 


EZ a "Frat iame,| 


# 修 改 列 名 


dfl1l.columns=['age2', 'name2°"|] 


# 修 改行 索引 
dfl.index = range (1,4) 


# 访 问 指定 列 的 值 


dfl[dfl.columns [0:2]] # 等 价 于 column names=dfl.columns,dfl[column names[0:2]] 


# 根 据 行 索引 删除 
df1.drop (1，axis=0) # axis=0 是 表示 行 轴 ， 也 可 以 省 略 


# 根 据 列 名 进行 删除 
df1.dropl'age2',， axis=1) # axis=1 表示 列 轴 ， 不 可 省 略 


# 第 二 种 删除 列 的 方法 
del dfl['agez2"|] 


# 增 加 列 
dfli['newColumn’] = [2, 4, 6] 


# 增 加 行 。 这 种 方法 效率 比较 低 
df2z2.loc[len (df2)] = [24, "KENKEN"|] 
增加 行 的 办 法 可 以 通过 合并 两 个 DataFrame 来 解决 。 例 如 : 
df = DataFrame([[li, 2], [3, 4]], columns=list('AB')) 
Out [46]: 

A B 


SI 
E44 
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df2 = DataFrame([[5，6]，[7，8]]，cclLumns=1L1st(7AB7) ) 
df2 


# 方 法 一 ， 合 并 两 个 数据 框 ， 并 生成 一 个 新 的 数据 框 ， 简 单 的 “县 加 ”， 不 修改 ijndex 
df .append (df2) # 仅 把 af 和 df2 “和 警 ” 起 来 了 了， 没有 修改 合并 后 df2 部 分 的 index 


Out[48]: 
点 DB 
*# 
1] 3 4 
0 5 6 
由 


# 方 法 二 ， 合 并 生成 一 个 新 的 数据 框 ， 并 修改 index 

dt.append(dft2，ignore index=True) # 修 改 index， 对 df2 部 分 重新 索引 了 
Out[49]: 

B 


(LI MY OO 
wl Cn Ra Ea 
oo mH 几 I 


4.2.3 数据 导入 


数据 存在 的 形式 多 样 ， 有 文件 (CSV、Excel、TXT) 和 数据 库 (MySQL、Access、SQL 
Server) 等 形式 。 
(1) 导入 TXT 文件 : 


read table (le ne 


file 为 文件 路 径 与 文件 名 。 
names 为 列 名 ， 睦 认为 文件 中 的 第 一 行 作 为 列 名 。 
sep 为 分 陋 符 ， 默 认为 空 ， 表 示 默 认 导 入 为 一 列 。 
【 例 4-1】 读 取 ( 导 入 )TXT 文件 : 
from pandas import read table 
df = read table('E://rzl1 .txt", 
names=|[ YHM ， DLSJ ; ITILod , YWAXAT ,; IP ,， REMARK | ,sep=",") 
PrNnit tdrl 
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YHM DLST "TOIT YWXT IP 、 
0 "S1402048"™ 2014-11-04 08:44:46 NaN 1.225790e+17 221 205. 98.55 
1 S1411023 2014-11-04 08:45:06 NaN 1.225790e+17 183.184.226.205 
2 S1402048 2014-11-04 08:46:39 NaN NaN 221 2205 00 DS 
3 20031509 2014-1]1]-04 08:47:41 NaN NaN dl Sl 200 
4 S1405010 2014-11-04 08:49:03 NaN 1.225790e+17 120.207.64.3 
REMARK 
0 单 点 登录 研究 生 系 统 成 功 ! 
1 单 点 登录 研究 生 系 统 成 功 ! 
2 用 尸 名 或 密码 错 旋 。 
3 ”统一 身份 用 户 登 录 成 功 ! 
4 单 点 登录 研究 生 系 统 成 功 ! 


注意 : ”TXT 文本 文件 要 保存 成 UTF-8 格式 才 会 不 报错 。 但 此 例 还 有 另外 一 个 问 
题 ， 即 第 一 个 数据 带 有 双 引 号 ， 该 怎么 处 理 ? 
(2) 导入 CSV 文件 : 


read csv (file,names=[ 人 网 名 1, 刚 名 2; ...],sep="",...) 


file 为 文件 路 径 与 文件 名 。 

names 为 列 名 ， 默 认为 文件 中 的 第 一 行 作 为 列 名 。 

sep 为 分 隔 符 ， 默 认为 衬 ， 表 示 默 认 寻 入 为 一 列 。 
【 例 4-2】 读 取 ( 叶 入 )CSV 文件 : 


from pandas import read csv 


df = read Cav (EP /ri220 .03v', 
niames=|» EHM “DLS sr Teod sy WaT 0 "TP; REMARE | Sep= ss |) 
print (df) 


YHM DDLSJ TOSJ YWXT IP REMARK 


0 id band num price NaN NaN 
1 1 130 联通 123 159 NaN NaN 
2 :ee 753 NaN NaN 
3 3 T3290 >S 456 NaN NaN 
4 4 133 电信 126 852 NaN NaN 


使 用 read_table 命令 也 能 执行 ， 结 果 与 read_csv 一 致 : 


from pandas import read table 
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df = read table('E://r220.G3w. 
names=[ THM DLSJ', ITILSUJ YWAT', "IP', REMARK' |] , sep=",") 
print (df) 


YHM DLSJ TCSYJ YWXT IP REMARK 


0 id band num price NaN NaN 

1 1 130 联通 123 159 NaN NaN 
2 2 T1319 1322 753 NaN NaN 

3 3 T32125 456 NaN NaN 

4 4 133 电信 126 852 NaN NaN 


(3) 导入 excel 文件 : 


readiexoelnltiler sheectname Neader=0) 


file 为 文件 路 径 与 文件 名 。 

sheetname 为 sheet 的 名 称 ， 例 如 sheetl 。 

header 为 列 名 ， 软 认为 0， 文 件 的 第 一 行 作为 列 名 。 只 接 有 党 布尔 型 0 和 1。 
【 例 4-3】 读 取 ( 导 入 )Excel 文件 : 


from pandas import read excel 


df = read excel('E://rzl .xlsx', sheetname="'Sheet2',header=1) 
print (df) 


all olLa- i= GA DBRdoD OL 2 I 040d bo UD 


0 S1402048 2014-11-04 08:46:39 NaN 221.205.98.55 

To003L509 201d 11 04 Nod1.dl WAN 7272.31 .51 200 

2 S1405010 2014-11-04 08:49:03 1 .225790e+17 120 3207. 6d.3 

3 20031509 2014-11-04 08:47:41 MSN 22 31 1 O00 

4 S1405010 2014-11-04 08:49:03 1 .225790e+17 T30207. 64 .3 
单 点 登录 研究 生 系 统 成 功 ! 

0 用 户 名 或 密码 错误 。 

1 ”统一 身份 用 户 登 录 成 功 ! 

2 单 点 登录 研究 生 系 统 成 功 ! 

3 ”统一 身份 用 户 登 录 成 功 ! 

4 单 点 登录 研究 生 系 统 成 功 ! 


YE 注意 : header 取 0 和 1 有 差别 ， 取 0 表示 第 一 行 作 为 表 头 显示 ， 取 1 表示 第 一 行 丢 


弃 ， 不 作为 表 头 显示 。 有 时 可 以 跳 过 首 行 或 者 读 取 多 个 表 ， 例 如 : 
df = pd.read excel (filefullpath, sheetname=[0,2],skiprows=[0]) 


币 4 章 Python 数据 分 术 改作 


sheetname 可 以 指定 读 取 几 个 sheet， 数 目 从 0 开始 ， 如 果 sheetname=[0,2]， 
则 代表 读 取 第 0 页 和 第 2 页 的 sheet: skiprows=[0] 代 表 读 取 时 跳 过 第 0 行 。 
(4) 导入 MySQL 库 : 
read sql (sql,con= 数 据 库 ) 
sql 为 从 数据 库 中 僵 询 数据 的 SQL 语句 。 
con 为 数据 库 的 连接 对 象 ， 需 要 在 程序 中 选择 创建 。 
示例 代码 如 下 : 


import pandas 
import MySQLdDb 


connection = MySQLdb.connect'l 
hast 0127.0 0 1"s # 本 机 的 访问 地 址 
user = "root', # 登 录 名 
Sw # 访 问 密码 ， 此 处 无 密码 
dese # 访 问 的 数据 库 
port = 5029, # 访 问 端 口 
charset = "utf8') # 编 码 格 式 
data = pandas.read sql{("select * from 七 USeT "yeon = connection,) 
# 七 user 是 test 库 中 的 表 
connection.closel) # 调 用 完 要 关闭 数据 库 
4.2.4 数据 导出 


(1) 导出 CSV 文件 : 


toesvttile Patlraep YY sndex TRUE header TRUE) 


file_path 为 文件 路 径 。 

sep 为 分 陋 符 ， 默 认 是 过 号 。 

index 代表 是 否 导出 行 序号 ， 默 认 是 TRUE， 导 出行 序号 。 
header 代表 是 否 导 出 列 名 ， 默 认 是 TRUE， 导出 列 名 。 
【 例 4-4】 导 出 CSV 文件 : 


from pandas import DataFrame 
from pandas import Series 
di = DataFrame( 
{ "age' :Seriles([26,85,64]), 'name':Series(['Ben', 'John', 'Jerry"])}) 


Print (df) 


age “name 
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0 26 Ben 
1 85 John 
2 64 Jerry 


df to Cavi'e V0] cay') 


df Loo e (D2 sv indear Ealse) 


结果 如 图 4-9 所 示 。 


1 name 
2 0 26 Ben 
中 1 85 john 
4 2 bd Jerry 
Qi.csv 


# 默 认 币 上 index 
# 无 index 


4-9 ”导出 数据 01.csv 和 02.csv 的 结果 


(2) 导出 Excel 文件 : 


to excel (file path, index=TRUE, header=TRUE) 


file_path 为 文件 路 径 。 


index 表示 是 否 导出 行 序号 ， 默 认 是 TRUE， 导 出 行 序号 。 
header 表示 是 否 导出 列 名 ， 默 认 是 TRUE， 导出 列 名 。 


【 例 4-5】 导 出 Excel 文件 : 


from pandas import DataFrame 

from pandas import Series 

df = DataFrame ( 
{'age':Serlies([26,85,64]),，, 


'name':Series(['Ben', ‘John', 'Jerry’'])})}) 


df .to excel('e:\\01.xlsx') 


df.to excell('e:\\02.xlsx',index=False) 


结果 如 图 4-10 所 示 。 


26 Ben 
35 John 
B44 Jerry 


Oi.x|lsx 


mi 
| | 


# 上 默认 带 上 ijndex 
# 死 ijndex 


nm | E CL 
] 天 己 name 
sl 2 Ben 
中 | 85|John 
4 B44 Jerry 
5 


一介 了 -XITSX 


4-10 ”导出 数据 01.xlsx 和 02.xlsx 结果 图 


At 注意 : 


凡是 在 Python 2.7 中 要 写 中 文字 符 串 的 地 方 ， 都 要 在 前 面 加 u。 在 to_csv 


里 ， 就 要 多 加 encoding =“UTF8” 这 个 参数 ; 若 要 用 Excel 直接 打开 ， 那 么 
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encoding =“GBK”， 或 者 encoding = “GB2312”， 因 Excel 默认 的 是 这 种 编 
码 。 在 Python 3.4 后 就 不 需要 了 。 


(3) 导出 到 MySQL 库 : 
to sql (tableName， con= 数 据 库 链接 ) 


tableName 为 数据 库 中 的 表 名 。 
con 表示 数据 库 的 连接 对 象 ， 需 要 在 程序 中 选择 创建 。 
示例 代码 如 下 : 


# -*—- coding: utf-8 一 * 一 
import MySOLdb 


from pandas import DataFrame 


connection = MySQLdb.connect ( 
host=" 127.0.0. 1", 
port=50293, 
USeI= root", 
passwd="",， 
db="test", 
charset="'utf8') 


connection.autocommit (True) # 自 动 递 交 数 据 连接 
df = DataFrame l(t 
"rages [30> 227 43]r 
Jame | non rer Torry ypen' 
1); 
df.to sqll("table 1l1", connection, flavor="'mysql', if exists='append'") 
# 导 入 MySQL 数据 库 test 库 下 的 table 1 表 中 ， 以 appenq 人 姐 加 的 模式 


connection.closet{) 


4.3 数据 处 理 
4.3.1 数据 清洗 


数据 分 析 的 第 一 步 是 提高 数据 质量 。 数 据 清 洗 承 是 处 理 缺 失 数 据 以 及 清除 无 意义 的 信 
已。 这 是 数据 价值 链 中 最 关键 的 步骤 。 志 圾 数据 ， 即 使 是 通过 最 好 的 分 析 ， 也 将 产生 错误 
的 结果 ， 并 误导 业务 本 身 。 因 此 在 数据 分 析 过 程 中 ， 数 据 清 洗 占 据 了 很 大 的 工作 量 。 

1. 重复 值 的 处 理 

drop duplicatesO0: 把 数据 结构 中 行 相 同 的 数据 去 除 (保留 其 中 的 一 行 )。 
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【 例 4-6】 数 据 去 重 : 


from pandas ijimport DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
dEf 
cnt ls 

YHM TCSJ YWXT IP 、% 
0 S1402048 18922254812 1.225790e+17 2 DS 
1 S1411T023 T3522255003 T2237T9Uet+L7 B31 -226. 205 
2 S1402048 13422229938 NaN re a pe Ee + ss 
20031509 18822256753 NaN Sl, 
4 S11A050]0 18922253721 1l1.225790et+l17 120.207.64.3 
人 20140007 NaN 1l1.225790et+l17 但 
6 S14040935 13822254373 1l1.225790e+17 se 
7 S1402048 13322252452 1.225790e+17 Pe A 
8 S14A405011 18922257681 1l1.22517190et+l17 183.184.230.38 
9 S1402048 13322252452 1.225790et+17 Wn ee = Re 
10 S14A405011 18922257681 1.225790e+l17 183.184.230.38 
newDF=df .drop duplicates () 
newDE 
Out [2]: 

YHM TLSJ YWXAT IP 
U S1402048 18922254812 1.225790e+l]17 ep se + 
1 ST41]1023 135222D005003 1.225190e+17 183.184.226.205 
2 S1402048 13422259938 NaN ed A ps es es Se 
3 20031509 18822256753 NaN 2 Sl L200 
4 S10l90 J8922253721 1T.22351190etl1T 120.207.64.3 
5 20140007 NaN 1.225790e+17 2nd Sl. 200 
6 S1404095 13822254373 1.225790et+17 dae a se ead 
7 S1402048 lJ3322252452 1l1.225790et+17 a a he 
3 S14G5011] T89222076981 J].2250790et1l1 183.184.230.38 


在 上 和 面 的 df 中 ， 第 7 行 和 第 9 行 数据 相同 ， 第 8 和 第 10 行 数据 相同 ， 去 重 后 ， 第 
7、9 和 8、10 各 保留 一 行 数据 。 


2. 缺失 值 处 理 


对 于 缺失 数据 的 处 理 方式 有 数据 补 齐 、 删 除 对 应 行 、 不 处 理 等 方法 。 
(1) dropna0: 去 除数 据 结构 中 值 为 空 的 数据 行 。 
【 例 4-7】 删 除数 据 为 空 所 对 应 的 行 : 
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from pandas import DataFrame 
from pandas import read excel 
df = read excel('e://rz2.xlsx") 


newDF=df .dropna() 


nNnewDFE 
Datt[l3]: 

YHM 工 全 局 可 工人 的 关 工 IP \ 
0 S1402048 18922254812 1.225790e+17 22] 20 90 0 
1 Slollio23 T30222Z2050U0U3 .2207905+17 183.184.226.205 
4 S1405010 18922253721] 1.225790et+l17 120.207.64.3 
6 S1404095 13822254373 1.225790et+l17 i ee 
了 S1402048 13322252452 1.225790e+17 和 22] 2095.0 .35 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 
9 S1402048 13322252452 1.225790e+17 Nat ee he 
10 SS1405011 18922257681 1.225790e+1]17 183.184.230.38 


例 中 的 2、3、5 行 有 空 值 NaN， 已 经 被 删除 。 

(2) dffillna0: 用 其 他 数值 替代 NaN。 

有 些 时 候 ， 空 数据 直接 删除 会 影响 分 析 的 结果 ， 可 以 对 数据 进行 填补 。 
【 例 4-8】 使 用 数值 或 者 任意 字符 蔡 代 缺失 值 : 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx') 
df EEL 
Out[4]: 

rt HM TOS YWAXT IP DDLSJ 
D S1402048 1.89223e+10 1.22579e+]17 221] .203.98.35 2014-1]1-04 08:44:46 
证 S1411023 1.35223et+l1l0 工 .22579e+117 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 1.34223et+l10 五 el Do. 408.55 014-11-04 08:46:39 
3 20031509 1.88223et+10 2 ts 2014-11-04 08:47:41 
4 S14050]0 1.89223e+l0 1.22579e+17 1]20.207.64.3 2014-11-04 08:49:03 
5 20140007 ?3 .2251759e+117 art a 2014-11-04 08350306 
6 S1404095 1.38223e+]10 1.22579e+17 a ep 2014-11-04 08:50:;02 
7 S1402048 1l1.33223et+l0 1l1.225719e+17 ee 2014-1]l1-04 O08:49:18 
8 S1405011 1.89223et+1l0 1.22579e+17 183.184.230.38 2014-1]11-04 08:14:355 
>| S1402048 1.33223e+10 1.22579e+]7 221 .205,98.35 2014-11-04 08:49:18 
10 S1405011 1.89223e+l0 1.22579e+17 183.184.230.38 2014-11-04 08:;:14;55 


如 2、3、5 行 有 空 ， 用 ?替代 了 缺失 值 。 
(3) df.fillna(method=‘pad”): 用 前 一 个 数据 值 蔡 代 NaN。 
【 例 4-9】 用 前 一 个 数据 值 蔡 代 缺 失 值 : 
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from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx") 
df .fillna (method="'pad') 
CT el 

YHM TCSY 网 半 了 IP DLSJ 
0 S1402048 18922254812 1.225790et+17 221 .205.98.55 2014-11-04 08:44:46 
1 S1411023 lJ3522255003 ll.2257190e+t+l17 183.184.226.205 2014-11-04 08:45:06 
2 Sl1A402048 1l13422259938 1.22957190et+l7 221 .205.98.35 2014-=-1]11]1=04 O08:46:39 
3 20031509 18822256753 1.225790e+17 222.31.351 .200 2014-]1-04 O08:47:41 
4 S140501]0 18922253721 1.225790e+17 120.207.64.3 2014-11-04 08:49:03 
5 20140007 1l89z22253721 1l1.229517190et+l1 a 2014-11-04 O08:50:06 
6 S1404095 13822254373 1.225790e+17 sl] 9.220 2014-11-04 08:50:02 
了 S1402048 13322252452 1 .225790e+117 221 .205.98.55 2014-]1-04 O08:49:18 
8 S1405011 18922257681 1.225790et+17 183.184.230.38 2014-11-04 08:14:55 
之 S1402048 13322252452 1.225790e+17 221 .205.98.55 2014-11-04 08:49:18 
10 Sl1A405011] 1l189222571681 1l1.2257190et+l17 183.184.230.38 2014-11-04 08:14:55 


(4) df.fillna(method=‘bfill*): 用 后 一 个 数据 仁和 谷 代 NaN。 


与 pad 相反 ，bfill 表示 用 后 一 个 数据 代替 NaN。 可 以 用 limit 限制 每 列 可 以 替代 NaN 
的 数目 。 
【 例 4-10】 用 后 一 个 数据 值 蔡 代 NaN: 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://r2z2.xXl1Ssx") 
df .fillna (method="bfill") 
Out[6]: 

YHM TCSJ YWXT IP DLSJ 
0 S1402048 lJ8922254812 1l1.2295190et+l] 2 .U3.98.39 2014-11]-04 08:44:46 
二 S1411023 lJ3522255003 1 22225790UG+l17 183.184.226.205 2014-11-04 O08:45:06 
2 Sl1A402048 13422259938 1 工 .225790e+117 221 .205.98.355 2014=1]1]=04 O08:46:39 
3 20031509 18822256753 1.229790et+17 222.31.51.,.200 2014-11-04 O08:47:41 
4 S1405010 18922253721 1.2295790e+l17 120.207.6d4.3 2014-11-04 08:49:03 
5 20140007 13822254373 1l.225790et+l1 lL lL.200 2014-11]-04 QO8:50:06 
6 S1404095 13822254373 1l1.2295790et+l17 rat ns ea 2014-11-04 08:50:02 
了 S1402048 13322252452 1 .225790e+17 221.20353.98.55 2014-11-04 O08:;49:18 
8 S1405011] 18922257681 1.225790et+17 1833,.184.230.38 2014-11-04 08:14:55 
9 S1402048 lJ3322252452 1l1.2295190et+l] a1 ,200.98.35 2014-11-04 O08:49:18 
10 S1405011 189222570681 ll.2295790et+l7 183.184.230.38 2014-11-04 08:14:55 


(5) dffillna(dfmean0): 用 平均 数 或 者 其 他 摘 述 性 统计 量 来 代 奉 NaN。 
【 例 4-11】 使 用 均值 来 填补 数据 : 
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from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2 0.xlsx') 
df 
Ct [al 
No math physical Chinese 
0 下 76 85 78 
1 2 85 26 NaN 
2 内 区 号 二 85 
3 4 NaN 75 38 
4 5 8 7 52 68 


df .fillna (df.mean()) 


Out[8]: 
No math physical Chinese 
0 下 16 85 18.00 
1 2 85 56 5 
2 3 7 95 35 .00 
3 4 81 区 28.00 
4 3 87 52 68.00 


(6) df.fillna(df.meanO 〇 [math: physical])): 选择 列 进行 缺失 值 的 处 理 。 
【 例 4-12】 为 某 列 使 用 该 列 的 均值 来 填补 数据 : 


from pandas jmport DataFrame 


from pandas import read excel 


df = read excel ('e://rz2 0.xlsx') 
df .fillna(df.mean()['math': ‘physical"]) 
Out: 
No math physical Chinese 
0 1 16 S 18 
1 2 85 De NaN 
2 了 16 号 与 8 
加 4 81 了 8 
4 3 87 S52 68 


(7) strip0: 消除 字符 型 数据 左右 (首尾 ) 指 定 的 字符 ， 默 认为 空格 ， 中 间 的 不 清除 。 
【 例 4-13】 删 除 字 符 串 左右 或 首位 指定 的 字符 : 


from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx") 
newDF=df['IP'] .str.strip()  # 因 为 IE 是 一 个 对 象 ， 所 以 先 转 为 str 
NewDFE 
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OO 
[or 
人 十 


[4] : 
ear 国 全 区 有 放生 
183.184,.226.205 
pel es em 
有 二 
120.207.64.3 
et 
ee 
ed Gs 
183.184.230.38 
9 | 
10 B44.]84 2 
Name: IP, dtype: ob]ject 


CO < 


4.3.2 ”数据 抽取 


(1) 字段 抽取 一 一 抽出 某 列 上 指定 位 置 的 数据 ， 做 成 新 的 列 : 


slice (start,stop) 


start 为 开始 位 置 。 
stop 为 结束 位 置 。 
【 例 4-14】 从 数据 中 抽出 条 列 : 


from pandas import DataFrame 
from pandas import read excel 
dE = end exeeltl'e /E22 XIIox) 
df["'TCSJ"]=df['TCSJ'] .astype (str) 
El 
Out[1]: 
18922254812 
汪汪 有 之 局 性 
13422259938 
18822256753 
189222531721 
nan 
13822254373 
13322252452 
18922257681 
13322252452 
10 18922257681 
Name: TCSJ, dtvype: ocbject 


en >] Bt 呈 ho 上 已 


人 


# astvpe(}) 转化 类 型 
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8 7681 
9 2452 
10 7681 


Name: TCSJ, dtype: obJ]Ject 


(2) 字段 拆 分 一 一 按 指定 的 字符 sep， 拆 分 已 有 的 字符 串 : 


split {sep,n,expand=False) 


sep 古 用 于 分 隔 字 从 串 的 分 隔 从 。 

n 为 分 割 后 新 增 的 列 数 。 

expand 代表 是 否 展 开 为 数据 框 ， 默 认为 False。 

返回 值 : expand 为 True， 返回 DaraFrame; 为 False 返回 Series。 
【 例 4-15】 拆 分 字符 串 为 指定 的 列 数 : 

from pandas import DataFrame 


from pandas import read excel 


df = read excel('e://rz2.xlsx") 
newDF=df['IP'] .str.strip() #IP 先 转 为 str， 表 删除 首位 空格 
newDF=df['IP'] .str.split('.',1,True) +# 按 第 一 个 '.' 分 成 两 列 ，1 表示 新 增 的 列 数 


newDE 
Ea ll 
0 1 

0 2 D098 .503 
1 183 184.226.205 
2 EE 2 YH 
避 222 党 和 
4 120 a 汪汪 光 
号 222 31 ho 
6 222 Si M0 
7 | 2059.98.59 
8 183 1 富生 有 3 .338 
9 221 2 
10 183 1384.230.38 


newDF.columns = ['IP1','IP2-4'] # 给 第 一 第 二 列 增 加 列 名 称 


newDFE 
Gatol 2 

TIPl IP2—4 
0 221 0 8 33 
1 183 184.226.205 
2 221 Ps 
3 222 31 e312 
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站 120 207.64.3 
3 2 31.5S1 200 
6 222 3 
7 py 二 局 本 二 和 二 
8 183 184.230.38 
9 221 2 
10 183 184.230.38 


(3) 记录 抽取 一 一 是 指 根据 一 定 的 条 件 ， 对 数据 进行 抽取 。 


dataframe [condition] 


condition 为 过 滤 条 件 。 
返回 值 : DataFrame。 
常用 的 condition 类 型 如 下 。 
比较 运算 : <、>、>=、<=、!=， 如 dffdf.comments>10000)]。 
范围 运算 : between(left,right)， 如 dffdf.comments.between(1000,10000)]。 
空置 运算 : pandas.isnull(column)， 如 df[dftitle.isnullO]。 
字符 匹配 : str.contains(patten, na=False)， 如 df[df.title.str.contains(‘ 电 台 ’, na=False)]。 
逻辑 运算 : &( 与 )、|( 或 )、not( 取 反 )， 如 : 
df [ (df.comments>=1000)& (df.comments<=1]10000)] 
上 面 这 一 句 跟 df[df.comments.between(1000,10000)] 等 价 。 
【 例 4-16】 按 条 件 抽取 数据 : 


import pandas 


from pandas import read excel 


df = read excel ('e://rz2.xX1sx'") 
df [df .TCSJ==] 3322252452|] 
Out[2]: 
YHM TS YWAT IP 


7 S1402Z048 T13322252452 1.22519D0etli 221.205.98.55 
3 S1402048 133222o2422 1.22201930etl 22 2205 .98 .5 


df [df .TCSJ>13500000000] 


Out [3]: 

YHM TCSJ YWXT IP 
0 S81402048 18922254812 1.225790e+17 221 205 98. 5 
1 si471023 522255003 1 225790e1T7 183.184.226.205 
三 20031509 18822256753 NaN 222.3l. 51 200 
4 S140SQl0 T8922253721 .2250790et+l]T 120.207.64.3 
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6 S1404095 13822254313 1l1.225790etl7 ee 基因 
8 S1405011 18922257681 工 .225790e+17 i103.184.230.38 
10 S14A05011] 189222571681] 1.225790et+17 183.184.230.38 


DLSJ 
2014-11-04 08:44:46 
2014-11]-04 08:45:06 
2014-11-04 0Q08:47:41 
2014-11-04 08:49:03 
ld = 1 Sd 385002 
Ola 1 0 O82s 
= 一 Be 


0 


df [df .TCSJ.between (13400000000,13999999999)|] 


Out [4]: 

YHM TCSJ YWXT 下 下 DLSJ 
1 S1411023 13522255003 1.225790e+17 183.184.226.205 2014-11-04 08:45:06 
2 S1402048 13422259938 NaN a en ns 2014-11-04 08:46:39 


Ss SL404D095 30222od S33 L22507490etlr 22203l 09 220 Zl4 1 Da 00:o0e0> 


df [df.YWXT.1snullt()}] 


out [S|]: 

YHM TOS YWXT IF DLSJ 
2 S1402048 13422259938 NaN 221.205.98.55 2014-11-04 08:46:39 
3 20031509 18822256753 NaN 222.31.51 .200 2014-1L1-04 08:47:41 


df [df.IP.str.contains('222."',na=False})] 


Out[6]: 

YHM 工 亿 号 可 YST IF DLSJ 
3 20031509 lJ8822206153 NaN pe 2014-11-04 08:;47:41 
5 20140007 NaN 1] .2295190et+l17 22.31 .5351.200 2014-11-04 O08:50:06 


6 S1404095 13822254373 1 .225790et+17 222.31 .39.220 2014-11-04 O08:50:;02 


(4) 随机 抽样 一 一 是 指 随机 从 数据 中 按照 一 定 的 行 数 或 者 比例 抽取 数据 : 


numpy.random.randint (start,end,num) 


start 为 范围 的 开始 值 。 

end 为 范围 的 结束 值 。 

num 为 抽样 个 数 。 

返回 值 : 行 的 索引 值 序 列 。 
【 例 4-17】 随 机 抽取 数据 : 


import numpy 


import pandas 


from pandas import read excel 
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df = read excel(‘'e://rz2.xXlsx') 
df 
CUtLJ |] : 

YHM TCoJ YWAXAT es DDLoJ 
0 S1402048 18922254812 1.225790e+17 221 .205. B55 2014-11-4 8:44 
1 S1411023 13522255003 1.225790e+17 183.184.226.205 2014-11-4 8:45 
2 S1402048 13422259938 NaN 22]1.205.98.55 2014-11-4 8:46 
3 20031509 18822256753 NaN St ee 2g14—11=4: 6:47 
4 31405010 18922253721 1.225790e+17 T2207 2014-11-4 8:49 
5 20140007 NaN 1.225790e+17 222.31.51.200 2014-11-4 8:50 
6 S1404095 13822254373 1.225790e+17 ZS 2 2014 J 3 90 
7 S1402048 13322252452 1 .225790e+L7 221].205.98.55 2014-11-4 8:49 
8 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-4 8:14 
9 S1402048 13322252452 1.225790e+17 221.205.98.55 2014-11-4 8:49 
10S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-4 8:14 
I = Numpy.random.randint (0,10,3) 
下 
人 
df.loc[r,:] # 抽 取 F 行 数据 
Out[3]: 

YHM TCSJ YWAT J DDSJ 


d Sid405011 L092220708L 1.220190e+17 
2 S1402048 13422259938 NaN 
3 S1402048 1]332225024352 1 .225190et+l] 


如 下 我 们 来 说 明 如 何 按照 指定 条 件 抽 取 数 据 。 
GD 使 用 index 标签 选取 数据 : df.loc[ 行 标签 , 列 标签 ]。 例 如 : 
# 选 取 ab 两 行 数据 ， 假 设 a、b 为 行 索引 
# 选 取 TCSJ 列 的 数据 

dfloc 的 第 一 个 参数 是 行 标签 ， 第 二 个 参数 为 列 标 釜 (可 选 参数 ， 黑 认为 所 有 列 标 签 )， 
两 个 参数 既 可 以 是 列表 ， 也 可 以 是 单个 字符 ， 如 果 两 个 参数 都 为 列表 ， 则 返回 的 是 
DataFrame， 人 否则 为 Series。 

@， 使 用 切片 位 置 选取 数据 : df.iloc[ 行 位 置 , 列 位 置 ]。 例 如 : 


# 选 取 第 二 行 ， 第 二 列 的 值 ， 返 回 的 为 单个 值 
# 选 取 第 一 行 和 第 三 行 的 数据 


183.184.230.38 2014-11-04 08:14:55 
221 .205.98.55 2014-11-04 08:;46:;39 
2 UD AUl4 T1104 QD T4931 


ea Ll | 
cE Le [Eta | 


Es Toc] 
| 


(143N. 
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df.1 LoalD=2 3) # 选 取 第 一 行 到 第 三 行 (不 包含 ) 的 数据 
df .iloc[:,1] # 选 取 所 有 记录 的 第 一 列 的 值 ， 返 回 的 为 一 个 Series 
ee oe ll] # 选 取 第 一 行 数据 ， 返 回 的 为 一 个 Series 


说 明 :; loc 为 location 的 缩写 ，iloc 则 为 integer 及 location 的 缩写 。 更 广义 的 切片 方 
式 是 使 用 .这 ， 它 自动 根据 给 出 的 索引 类 型 判断 是 使 用 位 置 还 是 标签 进行 切 
片 。 即 iloc 为 整 型 索引 ; loc 为 字符 串 索 引 ; ix 是 iloc 和 1loc 的 合体 。 


Python 默认 的 行 序号 是 从 0 开始 的 ， 我 们 称 为 行 位置 ， 但 实际 上 0 开始 的 行 我 们 在 计 
数 时 为 第 1 行 ， 也 称 为 行 号 ， 是 从 1 开始 的 ; 有 时 index 是 锌 命名 有 的， 如 ‘one’、'‘two’、 
‘three?、“‘four" 或 aI、‘b’?、‘c’、‘d’' 等 字符 串 ， 我 们 称 其 为 标签 。loc 索引 的 是 行 和 号、 标签 ， 
不 是 行 位 置 ， 如 下 例 中 df2.loc[1] 索 引 的 是 第 一 行 ( 行 号 为 1 )， 其 实 位 置 为 0 行 ，iloc 索引 的 
是 位 置 ， 不 能 是 标 合 或 行 亏 ; 这 则 三 者 香 可 。 

import pandas as pd 

ijndex loc = ["'a'r’'b'l] 

Te Lo [2 

data = [[l,2,3,4], [S071,8]] 

columns = ['one ， 七 WO thnree’', ou | 

dfl1 = pd.DataFrame (data=data, index=index loc, columns=columns,) 


drfz2 = pd.DataFrame (data=data,index=lndex liloc,columns=columns,) 


EE ENElel owml a] 


one 1 
two 2 
three 汉 
four 上 


Name: a, dtvype: ILnted 


Er El #iloc 不 能 索引 字符 串 
Traceback {most recent call 1ast) : 
TypeError: cannot do label indexing on <class '‘'pandas.core.index.Index'> 


with these indexers [al of <class str'> 


print (df2,.11oa[l1]) #1iloc 索引 的 是 行 位 置 
one | 
two 6 
three 1 
four 8 


Name: 2, dtype: inté64 


print (df2.loc[1]) #1loc[1] 索引 的 是 行 号 ， 的 对 应 的 行 位置 为 0 行 
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ONe 


1 
two 2 
three 名 

本 


four 


Name: 1l, dtype: 1Inte4 


rm tt | 


one I 
two 2 
three 3 
four 4 


Name: aa dtype: Inte4 


print (df1.ix['a']) 


one ll 
two 2 
three 3 
four 和 


Name: a, dtype: lint64 


(3) 通过 逻辑 指针 进行 数据 切片 ，df[ 逻 辑 条 件 ]。 例 如 : 


df [df.TCSJ >= 18822256753]  ”# 单 个 逻辑 条 忻 
df[ (df.TCSJ >=13422259938)& (df.TCSJ < 13822254373)] # 多 个 逻辑 条 件 组 合 


这 种 方式 获取 的 数据 切片 部 是 DataFrame。 例 如 : 


df [df .TCSJ >= 18822256753] 
Out[14]: 

YHM 下 YWAlT Ee DLSJ 
0 S1402048 18922254812 1.225790e+17 221.205.98.55 2014-11-04 08:44:46 
人 NaN 222.31.51.200 2014-11-04 08:47:41 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 2014-11-04 08:49:03 
8 S14050]1 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:1]4:55 
10 S1405011 18922257681 1.225790e+17 183.184.230.38 2014-11-04 08:14:55 


(5) 字典 数据 一 一 将 字典 数据 抽取 为 dataffame， 有 三 种 方法 : 


import pandas 


from pandas import Datarrame 


#1 。 字典 的 key 和 value 各 作为 一 列 

Ts a dh 

al=pandas .DataFrame.from dict(dl, orient="index') 
# 将 字典 转化 为 dataframe， 且 key 列 做 成 了 inadex 

al.index.name = 'key' # 将 :index 的 列 名 改 成 'key ' 
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bl1=al .reset index{() # 重 新 增加 ijndex， 并 将 原 index 做 成 了 'key' 列 
bl.columns=[ "key'"','value"] # 对 列 重 新 命名 为 ' kevy' 和 'value' 

Ey 

Out[lii]: 


Key value 
U BB [0 1.2] 
TI 


#2 .字典 里 的 每 一 个 元 素 作为 一 列 ( 同 长 ) 
| # 字 典 的 value 必须 长 度 相等 
a2= DataFrame (d2) 

az 
Out [2 


ee 
b 
刀 
5 
6 


mw Im 卢 儿 


#3 。 字典 里 的 每 一 个 元 系 作 为 一 列 (不 同 长 ) 


d= {'one' : pandas.Series([l1,2,3]}),'two' : pandas.Seriles([l1,2,3,4])} 
# 字 上 典 的 value 长 度 可 以 不 相等 
df = pandas.DataFrame (d) 
df 
Dutl3]: 
OnNe two 
1 由 
| 过 
350 3 
3 NaN 4 
也 可 以 像 下 面 这 样 处 理 : 


import pandas 
from pandas ijmport Series 
import numpy as np 


from pandas import DataFrame 


d= diCt! A = np arravlllr2lly b= = npsarravills 2 3r4]l)y 


DataFrame (dict ([ (k,Series(v)) for k,v In d.items()])) 


第 4 章 ，Python 数据 分 析 实 战 糯 


2 NaN 3 
3 NaN 4 


还 可 以 处 理 如 下 : 


import numpy as np 


import pandas as pd 


my dict = dictl(A = np.array([1,2]})}, B = np.array([l1,2,3,4])) 
dr = pd.DataFrame.from dict {my dict, orient="'index')} .T 
df 
Clit E> 

A B 
Ly 
2.0 
NaN 
NaN 


SS  To 捕 
DD 必 


| 
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1. 排名 排序 


Series 的 sort_index(ascending=True) 方 法 可 以 对 index 进行 排序 操作 ，ascending 参数 用 
于 控制 升序 或 降序 ， 黔 认为 升序 。 

在 DataFrame 上 ，.sort index(axis=0，by=None，ascending=True) 方 法 多 了 一 个 轴 向 的 选 
择 参 数 ， 以 及 一 个 by 参数 ，by 参数 的 作用 ， 是 针对 菏 一 ( 些 ) 列 进行 排序 (不 能 对 行使 用 by 
参数 )。 

例如 : 


from pandas import DataFrame 
dfoO=4 Onto 6 3 Texas I A Lo CalLlifornia [2 .Sj 
df=DataFrame (df0,index=['"'a','c'',"'d"']) 


df 
nit] 
California Ohio Texas 
2 0 7 
8 6 4 
| 5 部 1 


df .sort index (by="'Ohio') 


Out [2]: 


.447N. 
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California Ohio Texas 


=| 2 0 7 

| 5 3 

区 8 6 4 

Qt .sort index (by=[ "calitornia', Texas |]) 
Ci 

California Ohio Texas 

a 2 0 7 

d 要 | 

C 8 6 4 


df .sort index (axis=1) 


Out [4]: 
California Ohio Texas 
2 D 7 
E 8 6 4 
d 3 续 1 


排名 (Series.rank(method=‘average’”，ascending=True)) 的 作用 与 排序 的 不 同 之 处 在 于 ， 它 


会 把 对 象 的 values 替换 成 名 次 (从 1 到 n)， 对 于 平 级 项 ， 可 以 通过 方法 里 的 method 参数 来 
处 理 ，method 参数 有 4 个 可 选项 : average、min、max、first。 举 例如 下 : 


>>> ser=Serles([3,2,0,3],index=list('abcd')) 


>>> Ser 
| 3 
b 2 
二 0 
| 3 


dtype: int64 


>>> ser.rankl) 


己 和 
b el 
C ] .0 
| 1 


dtype: float64 
>>> ser.rank method='min"') 


sl 3 
b 之 
= 1 
d 3 


dtype: floatg6d 


>>> ser.rank (method="'max') 
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floated 


>>> Ser.rank(method='f1irst') 


a 4 
b 2 
dQ 4 
dtype: 
忌 3 
b 2 
区 1 
| 4 
dtype 
>>> 


float64d 


在 ser[0] 和 ser[3] 这 对 平 级 项 上 ， 不 同 method 参数 表现 出 的 不 同名 次 。 
DataFrame 的 .rank(axis=0, method='average'，ascending=True) 方 法 多 了 axis 参 
数 ， 可 选择 按 行 或 者 按 列 分 别 进 行 排名 ， 暂 时 好 像 没 有 针对 全 部 元 素 的 排名 


2. 重新 索引 

Series 对 象 的 重新 索引 通过 其 .reindex(index=None,**kwargs) 方 法 来 实现 。*##kwargs 
中 常用 的 参数 有 两 个 : method=None 和 fill value=np.NaN。 

例如 : 


>>>from pandas import Series 


>>Ser 


>>> 上 


et de a = i Nm 


一 = se = 


>>> Ser.reindex (A) 


DD 0 ph 


dtype: 


i 


3 


Pie 


滞 


6 


J 
NaN 


float6ed4 


= 


dtype: 


OO Nm 


float6ed 


>>> ser.reindex (A,method='ff1i11°') 


.449\. 


了 Python 数据 分 析 基础 


由 0 Uh 


dtype: floaté64d 
>>> ser.reindex (A, fill value=0,method="ff£fil1l") 


= 
b 学 
Bb 3.6 
| 4 .5 
人 4.5 
dtype: floaté64 


和 >> 之 


.rTeindex(0 方 法 会 返回 一 个 新 对 象 ， 其 index 严格 遵循 给 出 的 参数 ，method:{‘backfill’, 


bfll pad，“f6101，None} 参 数 用 于 指定 插值 (填充 ) 方 式 ， 当 没有 给 出 时 ， 默 认 用 fill_value 
填充 ， 值 为 NaN(ffill = pad，bfill = back fill， 分 别 指 插值 时 向 前 还 是 向 后 取 值 )。 


DataFrame 对 象 的 重新 穴 引 方法 .reindex(index=None,columns=None,*#kwargs) 仅 比 


Series 多 了 一 个 可 选 的 columns 参数 ， 用 于 给 列 索 引 。 用 法 与 上 例 Series 类 似 ， 只 不 过 插 
值 方法 method 参数 只 能 应 用 于 行 ， 即 轴 axis = 0。 


例如 : 


>>> state = ['Texas', ‘Utha', 'California'l] 
>>> df.reindex (columns=state,method="£ffil1l1"') 


Texas Utha California 


= 1 NaN 之 
C 4 NaN 5 
局 这 NaN 8 


[3 rows X 3 columnsl] 
>>> df.reindex(index=['a','b','c','d']j,columns=state,method="ffil1]l") 


Texas Utha California 


a 1 NaN 2 
和 由 NaN 2 
区 4 NaN 3 
| 六 NaN 8 


[4 rows XxX 3 columnsl 


> 


可 不 可 以 通过 df.T.reindex(index,method=“**”).T 这 样 的 方式 来 实现 在 列 上 的 插值 呢 ? 
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答案 是 肯定 的 。 另 外 要 注意 ， 使 用 reindex(index,method=“**’) 的 时 候 ，index 必须 是 单调 
的 ， 否 则 就 会 引发 一 个 ValueError: Must be monotonic for forward fill， 比 如 上 例 中 的 最 后 一 
次 调用 ， 如 果 使 用 index=['a’,‘b’,‘d’,‘c’]， 就 会 报错 。 


4.3.4 数据 合并 


(1) 记录 合并 一 一 是 指 两 个 结构 相同 的 数据 框 合 并 成 一 个 数据 框 ， 也 融 是 在 一 个 数据 
框 中 退 加 为 一 个 数据 框 的 数据 记录 : 


concat ([dataFramel, dataFrame2, ...]) 


dataFramel 为 数据 框 。 

返回 值 : DataFrame。 

【 例 4-18】 合 并 两 个 数据 框 ， 即 合并 记录 : 
import pandas 


from pandas import DataFrame 


from pandas import read excel 


dfl1 = read excell('e://rz2.xX]sx") 
dLrfl 
cn 

YHM Tt YWXT EE 
0 S1402048 18922254812 1.22527190e+17 Pa eh re ee 
1 S1411023 13522255003 1l1.225190et+l1] 183.184.226.205 
2 S1402048 13422259938 NaN 221 Hm V55 
20031509 1l18822256171353 NaN el 
4 S1405010 18922253721 1.225790e+17 120.207.64.3 
3 20140007 13422259313 1.225317190et+l117 A 
6 S14040935 13822254373 1.225790et+l17 Fe 
1 Sl1A02048 13322252452 22251590e+l 2 
8 S1405011 18922257681 1.225790et+17 183.184.230.38 
9 S1402048 13322252452 1.2252190e+1 17 sd 
10 S1405011 1892225171681 1.225/90et+l]i 183.184.230.38 
df2 = read excel{l'e://rz3.xl1]sx") 
df2 
Out [2]: 

YHM TCSUJ YWXT IP 
U S1402011] 18603514812 1l1.225190et+l1' ee ee ee 


1 2 和 
2 S1402033 


loldJ3o0l5003 .2257005t17 
13203359930 


NaN 


103 18d .220 0 
2 0 
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df=pandas.concat ([df1,df2]) 


df 


Out[3]: 


to 


YHM 
Sl1402048 
S1411023 
S1402048 
200315309 
S1405010 
20140007 
S14040935 
S1402048 
S1405011 
S1402048 
S1405011 
S1402011 
S1411022 
S1402033 


下 名 名 可 
18922254812 
1 35222o9003 
13422259938 
1882223561733 
18922253121 
13422259313 
A 
133222D2432 
18922257681 
13322252452 
Gb922237081 
18603514812 
13103515003 
13zU3559930 


YW%T 


二 二 之 之 了 号 日 总 十 二 了 
.aor90et|i 


大 PppPp pcp 


NaN 
NaN 


.225790e+17 
.225790et+17 
.225790e+17 
.225190e+17 
.225790e+17 
.225790e+17 
.225790e+17 
.225790e+17 
:2230790e+l11 


NaN 


LP 


之 
183.184. 


FF 205. 


ls 
220.205 
Sh 


网 过 过 


120.207 


.64.3 


oll 200 
a es a 


22 
183.184 
过 
1 3 154 
a 
183.184 
2 


938 .29 


人 


Se 


i 


3 


i 


So 


两 个 文件 的 数据 记录 都 合并 到 一 起 了 ， 实 现 了 数据 记录 的 “ 攻 加 ”或 者 记录 顺延 。 
(2) 字段 合并 一 一 是 指 对 同一 个 数据 框 中 不 同 的 列 进行 合并 ， 形 成 新 的 列 。 

ee 
xl 为 数据 列 1。 

x2 为 数据 列 2。 

返回 值 : Series， 合 并 后 的 系列 。 要 求 合并 的 系列 长 度 一 致 。 
【 例 4-19】〗 多 个 字段 合并 成 一 个 新 的 字段 : 


import pandas 


Xl1+X2Z+... 


from pandas import DataFrame 


from pandas import read csyv 


df = read csv{('e://rz4.csv', Sep=" "names=[ 'band', 'area', 'num"']) 
df 
Out[l1]: 
band area num 
0 1389 222D 4812 
1 E39 ZZ2m SOU03 
2 134 2225 9938 
3 68 2225 04953 
4 1l89 2225 3721 


134 
138 
133 
189 


oo ~] i MN 


df = di.astype (str) 
tel=df[ "band'"]+df["'area'" 1]+dqat[ nunm | 


tel 
Dut la]: 


oO =] 6 tn 放 tt fo 上 疙 


dtype: 


2 13 
2225 4373 
222D 2452 
FA "TB9Gl 


18922254812 
1 35222550003 
13422259938 
18822256753 
18922253721 
13422259313 
13822254373 
13322252452 
18922257681 
object 
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(3) 字段 匹配 一 是 指 不同 结 构 的 数据 框 (两 个 或 两 个 以 上 的 数据 框 )， 按 照 一 定 的 条 
件 进行 合并 ， 即 退 加 列 : 


merge (xr yr, left on,right on) 


x 是 第 一 个 数据 框 . 
y 是 第 二 个 数据 框 。 


left_on 是 第 一 个 数据 框 的 用 于 匹配 的 列 。 
right_on 是 第 二 个 数据 框 的 用 于 匹配 的 列 。 


返回 值 ， DataFrame。 


【 例 4-20】 按 指定 唯一 字段 匹配 增加 列 : 


import pandas 


from pandas import DataFrame 


from pandas import read excel 


dfl1 = read excell('e://rz2.xl]lsx', Sheetname="'Sheet3') 
计生 
加 三 起 本 上 | 区 
id band num 
0 和 130 23 
1 2 3 中 这 闪 
2 4 a 
3 5 134 126 
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df2 = read excel{'e://rz2.xl]sx',sheetname='Sheet4") 
diz 
Out [2]: 


id band area 


0 1 1] 30 3 
1 2 1]31 352 
2 3 1 32 Se 
本 所 3 3 354 
4 总 134 5 
3 3 F335 356 


pandas.merge (df1,df2,1left on="'id',right on="id") 


ots | 

id band x num band y area 
0 由 130 123 二 
i 131 124 F3352 
4 339 |23 133 354 
< 134 126 134 355 
0 134 126 33900330 


这 里 只 匹配 了 有 相同 序号 的 行 ， 如 dfl 中 没有 id=3， 在 结果 中 也 没有 id=3， 但 是 在 
df2 中 有 两 个 id=5， 在 结果 中 也 有 两 个 id=S$， 但 是 只 匹配 第 一 个 id=5。 


4.3.5 ”数据 计算 


(1) 简单 计算 一 一 通过 对 各 字段 进行 加 、 减 、 乘 、 除 等 四 则 算术 运算 ， 计 算出 的 结果 
作为 新 的 字段 ， 如 表 4-4 所 未 。 
表 4-4 字段 之 间 的 运算 结果 作为 新 的 字段 
id | num | brice_ id | num | price | result 


1 i123 159 1 123 159 19557 
2 124 od ] 2 124 153 93372 
3 125 456 | 3 125 456 57000 
4 126 852 4 126 852 107352 

例如 : 

from pandas import read CSV 

df = read csv{'e://rz2.CSV' ,Sep=",") 

df 

Out[1]: 


id band num price 
0 ] 人 159 


I 3 
2 3 B32 
3 4 33 


resuiult=df pricoe™*df ,mum 


result 

Out [2]: 

0 1 

1 a 

2 57000 

二 1 国 站 路 
dtype: inte4 


124 
125 
126 


下 
456 
8o2 


df['result'"']=result 


dt 
Out[3]: 

1d band 
0 1 1 30 
1 2 下 
2 3 下 二 之 
3 4 33 


num 
下 芝 也 
124 
于 这 人 
126 


price 
59 
3 
456 
852 


result 
二 
号 二 过 
57000 
107352 
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(2) 数据 标准 化 一 一 是 指 将 数据 按照 比例 缩放 ， 使 之 落 入 特定 的 区 间 ， 一 般 使 用 0~1 的 区 


则 来 标准 化 : 


X*= (x-min)/ (max—-min) 


例如 


from pandas import read CSV 


dE odd es Sova Oa oO 
df 
Out|[l1]: 
id band num price 
0 dl 有 国 本 2 下 与 电 
1 2 131 124 3 
2 3 1 |25 456 
3 4 过 .52 


scale= (df .price-df.price.min())/ (df.price.max() -df.price.min'()) 


scale 
Out[2]: 


0 0.000000 


4.3.6” 效 据 分 组 


则 来 进行 研究 ， 


1 0 .857143 
2 0.428571 
3 1 .000000 


Name: price, 


和 Python 数据 分 析 基础 


dtype: float64 


数据 分 组 是 根据 数据 分 析 对 象 的 特征 ， 按 照 一 定 的 数据 指标 ， 把 数据 划分 为 不 同 的 区 


以 揭示 其 内 在 的 联系 和 规律 性 。 简 单 地 说 : 融 是 新 增 一 列 ， 将 原来 的 数据 


按照 其 性 质 归 入 新 的 类 别 中 。 数 据 分 组 的 语法 如 下 : 
cut (series,bins,ricoht=True, labels=NULL) 


series 为 需要 分 组 的 数据 。 
bins 为 分 组 的 依据 数据 。 


right 为 分 组 的 时 候 右边 是 否 


labels 为 分 组 的 目 定 义 标 签 ， 可 以 不 目 定 义 。 
例如 ， 现 有 数据 如 表 4-5 所 示 ， 将 数据 进行 分 组 。 


import pandas 


#from pandas import DataFrame 


from pandas import read csyv 


dl LeaAd oavl 


dif 

Cot [Ll 

id band 
二 1] 30 
2 汉王 
本 3 之 
所 有 


Lu hu 上 避 


num price 


123 1]59 
124 3 
i 456 
126 日 2 


eA SV Sap 


表 4-5 数据 分 组 


500 mm 


bins=[min (df .price)—l1,500,max (df .price)+1] 


labels=["500 以 下 ","500 人 以上"] 


.456\. 
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pandas.cut (df .price,bins) 

CITE 

0 (158, S00] 

1 (S00 B53) 

2 (E00 

渤 FIO esd 

Name: price, dtype: category 

Categories (2, object)}: [(158, S500] < (500, 853]] 


Panaas .cut (df .price,bins,right=rFalse) 


OuUt[3]: 

0 [i138, 300) 
1 [SVD 903 
2 [L380 3900 
从 ES 9) 


Name: price, dtype: category 
Categories (2, object}: [[158，500) < [S00, 853}] 


pa=pandas.cut (df .price,bins,right=False, labels=]labels) 


pa 
Out[S]: 

0 500 以 下 
1 S00 LE 
500 以 下 
3 二 加 


Name: price, dtype: category 
atauoriags IZ OB eectl: [S00 FEF = 500Eb EE 


df['l]abel']=pandas.cut (df .price,bins,right=False, Jabels=l]labels) 
df 
Out [6]: 


id band num price Jabel 


[0192 159 500 以 下 

4 753 500 以 上 

2 3 132 125 456 500 以 下 

3 要 133 J26 852 500 以 上 
4.3.7 “日 期 处 理 


(1) 日 期 转换 一 一 是 指 将 字符 型 的 日 期 格式 转换 为 日 期 格式 数据 的 过 程 : 


to datetime (dateString,Tformat) 


.457N. 
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format 格式 如 下 。 
@ %Y: 年 份 。 
@ %m: 月 份 。 
@  %d: 日 期 。 
@ 9%H: 小 时 。 
@ %M: 分 钟 。 
@ 9%S: 秒 。 


【 例 4-21】 使 用 to datetime(df 注 册 时 间 , format= “6Y/7%myopod 转换 : 


from pandas limport read csv 


from pandas import to datetime 


df = read csv('e;//rz3.csVv', Sep=', ',encoding='utf£f8°) 
dt 
Emmitt [SE 

num price vyear month date 
9 L123 T5206 1 2016/6/1 
1 124 T3201 2 2016/6/2 
2 456 2016 3 2016/6/3 
3 126 852 2016 4 2016/6/4 
4 127 L020]6 2016/6/5 
S| 299 2016 6 2016/6/6 
6 102 699 2016 | 2016/6/7 
7 201 SY9 2016 8 2016/6/8 
8 154 I 9 2016/6/9 
9 142 899 2016 10 2001866ATE0 


df dt = to datetime {df.date,format="$%Y/$%m/$sSd") 
df dt 

Out[2]: 

2016-06-01 

2016-06-02 

2016-06=-03 

2016-06-04 

2016-06-05 

2016-06-06 

2016 05— 0 

2016-06-08 

lo 0 9 

贡生 一 村 一 主 刘 

Name: date, dtvype: datetimeé64 [ns] 


ID oo 
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注意 CSV 的 格式 是 否 是 utf8 格式 ， 人 否则 会 报错 。 另 外 ，CSV 里 date 的 格式 是 文本 ( 字 
符 串 ) 格 式 。 
(2) 日 期 格式 化 一 一 是 指 将 日 期 型 的 数据 按照 给 定 的 格式 转化 为 字符 型 的 数据 : 


apply (lambda Xx: 处 理 罗 和 辑 ) 


处 理 远 辑 即 datetime.strftime(x,format)。 
【 例 4-22】 日 期 型 数据 转化 为 字符 型 数据 : 


#df_dt = to_datetime (df. 注 册 时 间 ， format="'%Y/%m/%d'); 
#df dt str = df dt.apply(df. 注 册 时 间 ， format="'%Y/%m/%d') 


from pandas import read csv 
from pandas import to datetime 


from datetime jmport datetime 


df = read cayv{l'es /rr23.08Y /SAapP= "7 enaoding "utfie"y 
df dt = to datetime (df.date,format="%Y/%m/%d") 


df dt str=df dt.apply (lambda x: datetime.strftime (x, "SY/Sm/®Sd"y) 
#apply 见 后 注 

dt db ser 

CE 

2016/06/01 

2016/06/02 

2016/06/03 

2016/06/04 

2016/06/05 

2016/06/06 

2016/06/07 

2016/06/08 

2016/06/09 

2016/06/10 

Name: date, dtype: object 


I 0 ”~ 末 届 册 tu lo 此 全 


* 注音: 当 硕 望 将 函数 下 应 用 到 DataFrame 对 象 的 行 或 列 时 ， 可 以 使 用 .apply(f axis=0， 
args=(), **kwds) 方 法 ，axis=0 表示 按 列 运算 ，axis=1l 表示 按 行 运算 。 例 如 : 
from Panaas import DataFrame 


df=DataFrame({'ohio':[1,3,6], 'texas':[l1],4,5], 'california': [2,5,8] },index 


a a I es A 


.459\. 


》Python 数据 分 析 基础 


california ohio texas 


a 2 下 1 
区 5 习 4 
8 6 3 
f = lambda x:x.max() -x.min() 
df .apply (f) # 默 认 按 列 运算 ， 同 df .apply (f,axis=0) 
Out[2]: 
california 6 
ohio 袜 
texas 


dtype: inte4 


df .apply (f, axis=1) # 按 行 运 算 


Out [3]: 
=| 1 
C 2 
d 3 


dtype: inted 


(3) 日 期 抽取 一 一 是 指 从 日 期 格式 里 面 抽 取出 需要 的 部 分 属性 : 


Data dt.dt.property 


属性 取 值 的 相关 含义 如 下 。 
second 1~60 秒 ， 从 1 开始 到 60。 
minute 1~60 分 ， 从 1 开始 到 60。 


hour 1~24 小 时 ， 从 1 开始 到 24。 

day 1~31 日 ， 一 个 月 中 第 几 天 ， 从 1 开始 到 31。 
month 1~12 月 ， 从 1 开始 到 12。 

year 年 份 。 


weekday 1~7， 一 周 中 的 第 几 天 ， 从 1 开始 ， 服 大 为 7。 
【 例 4-23】 对 日 期 进行 抽取 : 


from pandas import read csv;} 
from pandas import to datetime,; 
df = read csv{l'e://r23.cS3V', Sep=', ',encoding="'utf8') 
dt 
Out[l|]: 
num price Year month date 
0 ya UE6 1 2016/6/1 
1 124 T532016 2 2016/6/2 


2 
126 
127 
le 
102 
201 
154 
142 


DO 0 ] 


df dt =to datetime (df.date, format='%Y/%m/%d') 


df dt 
| 


tO 必 ul 上 二 


456 
852 
210 
i 
699 
ps, 
B99 
899 


2016-06-01 
20L6= QU2 
2016-06-03 
Lo=Ui=04 
2016-06-05 
2016-06-06 
2016-06=—07 
2016-06-08 
2016-06-09 
2016-06-10 


Name: date, 


df dt.dt. year 


Out[3]: 

2016 
2016 
2016 
2016 
2016 
2016 
2016 
2016 
2016 
2016 


DD 了 必 Io 上 吉 


Name: date, 


df dt.dt.day 


Out [4]: 
0 有 
1 2 
2 3 


2016 
过 局 王 间 
2016 
2016 
2016 
2016 
2016 
2016 


dtype: 


dtype: 


3 2016/6/3 
4 2016/6/4 
T2016/65 
6 2016/6/6 
TL 
8 2016/6/8 
9 2016/6/9 
0 2016/6/10 


datetime64 [ns] 


i1nt64d 


洛 4 剖 Python 数据 分 析 实 战 人 


.6 人 \. 


Python 数据 分 析 基础 


3 4 
4 2 
号 6 
6 
7 8 
8 9 
9 10 


Name: date, dtvype: inted 


dE ded month 
df dt.dt .weekday 
df dt.dt.second 
df dt.dt,.hour 


4.4 数据 分 析 
4.4.1 基本 统计 


基本 统计 分 析 : 文 叫 摘 述 性 统计 分 析 ， 一 般 统 计 菏 个 变量 的 最 小 值 、 第 一 个 四 分 位 
值 、 中 值 、 第 三 个 四 分 位 值 、 以 及 最 大 值 。 

describe(): 为 描述 性 统计 分 析 函 数 。 

常用 的 统计 函数 如 下 。 

size: 计数 (此 孙 数 不 需要 括 写 )。 

sum(): 求 和 。 

mean(): 平均 值 。 

var(): 方差 。 

std0: 标准 差 。 

【 例 4-24】 数 据 的 基本 统计 : 


from pandas import read CSsV 


df = read csv('e://r23.cSV', Sep=', ',encoding='utf8°") 
df 
tl: 
num price vear month date 
) 123 LS I 2016/6/1 
1 124 T2016 2 2016/6/2 
2 2 456 2016 3 2016/673 
3 126 2 4 2016/6/4 
4 127 210 2016 2016/6/5 
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SS ES 6 2016/6/6 
6 102 byS 2016 3 20167677 
T7201 SID ZO0LS 8 2016/6/8 
8 154 1] 2016 392016/6/9 
9 142 899 2016 10 2016/6/10 


df .num.describe!() 


Out[2]: 

count 10.00000 
mean 1 33.90000 
std 访 Z91] 
min 102.00000 
25% 123.25080 
S50 125.50000 
7 了 95% 138.25000 
max 201.00000 


Name: num, dtype: floate6d 


di .num. 
Out[3]: 


df .num. 
Sut[d|: 


df .num. 


啤 3 a 


dif .num. 
Out[el]: 


df .num. 
Lo lel 


df .num. 


Out [8]: 


di .num. 
CU 七 [与 ] : 


Size 
10 


max{() 
201 


mint{) 
102 


sumt{) 
.3439 


mean (1) 
下 


varlt) 


# 注 意 : 这 里 没有 插 号 () 


To0. 3222222222221 


S 七 局 () 


21.332010183310046 


4.4.2 ”分 组 分 析 


分 组 分 析 : 是 指 根据 分 组 字段 将 分 析 对 象 划 分 成 不 同 的 部 分 ， 以 对 比分 析 各 组 之 间 差 
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异性 的 一 种 分 析 方 法 。 
常用 的 统计 指标 : 计数 、 求 和 、 平 均值 。 
利用 形 云 : 
EqroupDyIbDy [分 六 "分 类 20700 ]) [构筑 计 的 询 "] 5 本 人 1 列 列 首 工 生计 国 数 17 
列 别 名 2: 统计 函数 2，...)) 
by 一 一 用 于 分 组 的 列 。 
[一 一 用 于 统计 的 列 。 
.agg 一 一 统计 别名 ， 显 示 统 计 值 的 名 称 ， 统 计 函 数 用 于 统计 数据 。 


size 计数 。 
sum 求 和 。 
mean 均值 。 


【 例 4-25】 分 组 分 析 : 


import numpy 


from pandas import read excel 


.6 人， 


df = read excel('e:\\rz4.xlsx") 
df 
Out[li]: 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 80 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 
5 2308024201] 23080242 迟 培 男 60 50 89 71 76 71 82 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 
8 2308024326 23080243 余 量 男 66 67 85 65 61 71 95 
9 2308024320 23080243 李 嘉 女 62 60 90 60 67 77 95 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 
11 2308024310 23080243 吝 赛 女 79 67 84 64 64 79 85 
12 2308024435 23080244 半角 涛 男 77 71 87 61 73 76 82 
13 2308024432 23080244 越 末 男 74 74 88 68 70 71 85 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 
18 2308024402 23080244 王 往 女 73 74 93 70 71 75 88 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 
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df .groupby (by=[' 班 级 ',' 性 别 '])[' 军 训 '] .agg ({' 总 分 ' :numpy.sum, "人数 ': 
numpyv .size, 平均 全 :numpvy.mean,; 方差 :Dimpy.var， 标准 差 ， :TUImPDY . St ' 最 高 分 ' : 
numpy .max,' 最 低 分 ' :numpy .min}) 


Out [2]: 
标准 差 方 莽 ”最 高 分 人 数 最 低 分 总 分 平均 值 
班级 性 列 
23080242 女 12.020815 144.500000 92 2 75 167 83.500000 
男 6.184658 38.250000 89 4 75 321 80.250000 
23080243 女 3,464102 12.000000 90 3 84 258 86.000000 
男 1.000000 1.000000 86 3 84 255 85.000000 
23080244 女 11.313708 128.000000 93 2 77 170 85.000000 
Ea 5.076088 25.766667 91 6 77 509 84.833333 


4.4.3 ”分 布 分 析 


分 布 分 析 是 指 根据 分 析 的 目的 ， 将 数据 (定量 数据 ) 进 行 等 距 或 不 等 距 的 分 组 ， 是 研究 
各 组 分 布 规律 的 一 种 分 析 方 法 。 
【 例 4-26】 分 布 分 析 : 


import numpy 
import pandas 


from pandas import read excel 


df = read excel('e:\\rz4.xlsx') 
dr 
ET 

学 号 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 总 分 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 
2 2308024251 23080242 张波 男 85 81 75 45 45 6€60 80 471 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 482 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 人 述 培 男 60 50 89 71 7176 71 82 499 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 
8 2308024326 23080243 余 上 腹 男 66 67 85 65 61 71 95 510 
9 2308024320 23080243 李密 女 62 60 9%0 60 6€67 77 95 511 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 
11 2308024310 23080243 ”部 罕 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 总 裔 洲 男 77 71 87 61 73 76 82 527 
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13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 9%0 75 85 538 
16 2308024433 23080244 李 大 强 男 73 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 36 91 69 60 77 83 540 
18 2308024402 23080244 王 熙 女 73 74 93 70 71 75 88 544 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 


bins = [min (df .总 分 ) -1,450,500,max (df. 总 分 )+1]  ”# 将 数据 分 成 三 段 


bins 
Datlal: [A442. 4SQ S00. S57] 


labels=['450 及 其 以 下 ','450 到 500','500 及 其 以 上 '] # 给 三 段 数据 贴标签 


labels 
Out [5]: ['450 及 其 以 下 '，'"'450 到 500'，"'500 及 其 以 上 '] 


导 分 分 层 = pandas .cut (df .总 分 ,bins,1abelLls=1Labels) 


总 分 分 层 

Out[7]: 
450 及 其 以 下 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
450 到 500 
500 及 其 以 上 
500 及 其 以 上 
9 500 及 其 以 上 
Le 500 太 天 以 | 
二 500 及 其 以 上 
12 500 及 其 以 上 
13 500 及 其 以 上 
14 500 及 其 以 上 
15 500 及 其 以 卡 
16 500 及 其 以 上 
17 500 及 其 以 上 
18 500 及 其 以 上 
19 500 及 其 以 上 
Name : 忆 分 ， dtype: category 


Co ~] oo 
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Categories (3， object): [450 及 其 以 下 < 450 到 500 < 500 及 其 以 上 ] 

df[' 电 分 分 层 ']= 总 分 分 技 

df 

[out8]: 

学 写 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 ”总 分 分 层 

0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 450 及 其 以 下 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 450 到 500 
2 2308024251 23080242 张 疲 男 85 81 75 45 45 60 80 471 450 到 500 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 482 450 到 500 
4 2308024219 23080242 封印 女 73 88 %2 61 47 46 83 490 450 到 500 
5 2308024201 23080242 迟 培 男 60 50 89 71 76 71 82 499 450 到 500 
6 2308024347 23080243 李 华 女 67 61 84 61 65 78 83 499 450 到 500 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 500 及 其 以 上 
8 2308024326 23080243 人 条 痴 男 66 67 85 65 61 71 95 510 500 及 其 以 上 
9 2308024320 23080243 李 训 女 62 60 90 60 67 77 95 511 500 及 其 以 上 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 500 及 其 以 上 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 85 522 500 及 其 以 上 
12 2308024435 23080244 姜 衣 涛 男 77 71 87 61 73 76 82 527 500 及 其 以 上 
13 2308024432 23080244 起 宇 男 74 74 88 68 70 71 85 530 500 及 其 以 上 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 500 及 其 以 上 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 500 及 其 以 上 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 500 及 其 以 上 
17 2308024428 23080244 李 仙 通 男 64 9%6 91 69 60 77 83 540 500 及 其 以 上 
18 2308024402 23080244 王宫 区 73 74 33 70 71 75 88 544 500 及 其 以 上 
19 2308024422 23080244 李 晓 亮 男 85 60 85 72 72 83 89 546 500 及 其 以 上 

df .groupby (by=[' 总 分 分 层 '])[' 总 分 '] .agg ({' 人 数 ':numpy.size}) 

Out [3]: 

人 数 

总 分 分 层 

450 及 其 以 下 1 

450 到 500 6 

SU 共同 > 

4.4.4 ”交叉 分 析 
交叉 分 析 通 常用 于 分 析 两 个 或 两 个 以 上 分 组 变量 之 间 的 关系 ， 以 交叉 表 形 式 进 行 变量 


闻 关 系 的 对 比分 析 。 一 般 分 为 定量 、 定 量 分 组 交叉 ; 定量 、 定 性 分 组 交叉 ; 定性 、 定 型 分 
组 交 文 。 区 文 分 析 所 使 用 的 分 析 函 数 如 下 : 


Pivot table (values,index, columns,aggfunc,fill value) 


/167\. 
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values 一 一 数据 透视 表 中 的 值 。 
index 数据 透视 表 中 的 行 。 
columns 一 一 数据 透视 表 中 的 列 。 
aggfunc 一 一 统计 函数 。 


fill value 一 一 NA 值 的 统一 替换 。 
返回 值 : 数据 透视 表 的 结果 。 
【 例 4-27】 交 叉 分 析 : 


import numpy 

import pandas 

from pandas import read excel 
from pandas import pivot table # 在 Spyder 下 也 可 以 不 导入 
df = read excel(''e:\\r2z4.xlSsx") 

bins = [min (df. 总 分) -1,;450,500,max (df. 忆 分 )} +1] 

labels=['450 及 其 以 下 ', '450 到 500', "500 及 其 以 上 '] 

局 分 分 层 = pandasa. cut(df. 必 分 ,Dins, labela=]abels) 

df[' 轧 分 分 层 ']= 总 分 分 后 

df .pivot table (values=[' 忆 分 '], index=[' 蕊 分 分 层 '] ,columns=[ :性别 5] ， 


aggfunc=[numpy.size,numpy.meanl]|) 


BulLlls 
size mean 

后 分 已 分 
性 别 女 “ 男 六 区 
总 分 分 层 
450 及 其 以 下 NaN 1 NaN 443.000000 
450 到 500 3 3 480.333333 484.000000 
500 及 其 以 上 4 9 527.500000 527.666667 


df.pivot tablel(valLues=[ 总 分 "] ,index=[' 导 分 分 层 '] ,columns=[ 性别 ']， 


aggftunc=[numpy.size;numpy.mean], fill value=0) 


# 也 可 以 将 统计 为 0 的 赋值 为 零 ， 默 认为 nan 


Out[2z2]: 
Size mean 
Se 总 
性 列 女 男 女 男 
总 分 分 层 
本 SO 上 iD 0.000000 443.000000 
450 到 500 = 480.333333 484.000000 
500 及 其 以 上 4 9 527.500000 527.666667 
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4.4.5 ”结构 分 析 


结构 分 析 是 在 分 组 的 基础 上 ， 计 算 各 组 成 部 分 所 占 的 比重 ， 进 而 分 析 总 体 的 内 部 特征 
的 一 种 分 析 方 法 。 

所 使 用 的 光 数 如 下 : 

df pt.sum(axis) 

df pt.divildf pt.sum(axls) ,axls) 

axis 参数 说 明 : 0 表示 列 ; 1 表示 行 。 

【 例 4-28】 结 构 分 析 : 
# 假 设 要 计算 班级 团体 总 分 情况 


import numpy 


import pandas 


from pandas import read excel 
from pandas import pivot table # 在 Spyder 下 也 可 以 不 导入 


dE = Fear eoel (ue WEA la) 


df pt = df.pivot table (values=|[" 总 分 ' ] ,index=| ' 班级" Jj:rcolumns=[ ' 性别 a 


aggfunc= [numpy. sum]) 


df pt 

Lt | 
SU 
总 分 

性 列 女 为 


23080242 942 1895 
23080243 15232 1329 
23080244 1077 3220 


df pt.sum!() 


ri 
性 别 

sum 总 分 女 3551 
鸭 6644 


dtvype: inte4 
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df pt.sum(axis=0) # 效 果 同 省 略 


Out [3] : 
性 别 

sum 总 分 女 3551 
男 6644 


dtype: int64 


df pt.sum(axis=]) 
Out [4]: 

班级 

23080242 2831 
23080243 3061 
23080244 A42917 
dtype: int64d 


df pt.div(df pt.sum(axis=1),axis=0) # 控 列 占 比 


at sl 
SuUm 
忆 分 
性 列 女 风 
班级 


23080242 0.332041 0.6671959 
23080243 0.500490 0.499510 
23080244 0.250640 0.749360 


df pt.div(df pt.sum(axis=0) ,axis=1) # 按 行 占 比 


Dut tol: 

sum 

lap 
性 别 女 男 
班级 


23080242 0.26527117 0.285220 
23080243 0.431428 0.230132 
23080244 0.303295 0.484648 


4.4.6 ”相关 分 析 


相关 分 析 是 研究 现象 之 间 是 否 存在 茶 种 依存 关系 ， 并 对 具体 有 依存 关系 的 现象 探讨 其 
相关 方 同 以 及 相关 程度 ， 是 研究 随机 变量 之 间 相 关 关 系 的 一 种 统计 方法 。 

相关 系数 可 以 用 来 手 述 定量 变量 之 间 的 天 系 。 

相关 系数 与 相关 程度 如 表 4-6 所 示 。 
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表 4-6 相关 系数 与 相关 程度 


相关 分 析 函 数 : 


DataFrame.corrt() 


0 三 Ir|<0.3 低 度 相关 
0.3 三 |r|<0.8 中 度 相 关 
0.8 三 |r| 筷 1 高 度 相 关 


Series.corr (other) 


如 果 由 数据 框 调 用 corr 方法 ， 那 么 将 会 计算 每 列 两 两 之 间 的 相似 度 。 如 果 由 序列 调用 


corr 方法 ， 那 么 只 是 计算 该 序列 与 传 入 的 序列 之 间 的 相关 度 。 


返回 值 : 
@ DataFrame 调用 将 返回 DataFrame。 
Series 调用 将 返回 一 个 数值 型 ， 大 小 为 相关 度 。 
【 例 4-29】 相 关 分 析 : 


import numpy 


import pandas 


from pandas import read excel 


df = read excel('e:;\\rz4.xlsx') 
QE 
Lit]: 

学 号 班级 “姓名 性 别 英语 体育 罕 训 数 分 融 代 解 几 计算 机 基础 总 分 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 35 47 47 44 82 452 
2 2308024251 23080242 张波 男 85 81 75 45 45 60 Sry 
3 2308024249 23080242 朱 浩 男 65 50 80 72 62 71 82 482 
4 2308024219 23080242 封印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 迟 塔 男 60 50 89 71 76 71 82 499 
6 230303234347 2720802123 0 全文 GUEST ad SI 6S US 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 
8 2308024326 23080243 余 搭 男 66 67 85 65 61 71 95 510 
SR 88002422 4 SEO RDO7 7 95 511 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 
11 2308024310 23080243 “” 郭 罕 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 姜 妆 涛 男 77 71 87 61 73 76 82 527 
13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 55 535 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 


(17N. 
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16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
18 2308024402 23080244 王 顽 女 73 74 9%3 70 71 75 88 544 
19 2308024422 23080244 李 晓 宫 男 85 60 85 72 72 83 89 546 
# 两 列 之 间 的 相关 度 计 算 


df [' 高 代 '"'] .corr (df[' 数 分 ']) 
Out[2]: 0.6077408233206010i6 


# 多 列 之 间 的 相关 度 计算 
df .loc[:;[【' 闫 语 ", "体育 ";' 军 训 ', "计算 机 基础 中 “ 解 几 "7 ' 数 分 ' "高 代 "]] eGrr1) 
OuUt[3]: 

英语 体育 军训 计算 机 基础 ” 解 几 数 分 高 代 
| D000 oO ad S0300lS 0 lIIg020 0 N274D2 9 0 1]20000 0 ]20245 
体育 0.244323 1.000000 -0.111315 -0.266896 -0.526276 -0.369766 -0.382447 
军训 -0.335015 -0.111315 1.000000 0.148933 0.249299 0.469226 0.251903 
计算 机 基础 -0.119039 -0.266896 0.148933 1.000000 0.305934 0.123399 0.096979 
解 几 0.027452 -0.526276 0.249299 0.305934 1.000000 0.544394 0.613281 
数 分 -0.129588 -0.369766 0.469226 0.123399 0.544394 1.000000 0.607741 
高 代 -0.125245 -0.382447 0.251903 0.096979 0.613281 0.607741 1.000000 


4.5 ”数据 可 视 化 


4.5.1 饼 图 


饼 图 (Pie Graph) 又 称 圆 形 图 ， 是 一 个 划分 为 几 个 书 形 的 圆 形 统 计 图 ， 它 能 够 直观 地 反 


映 个 体 与 总 体 的 比例 关系 。 绘 制 饼 图 的 方法 如 下 : 


pie (x, labels,colors,explode,autopct) 


进行 绘图 的 序列 。 

labels 饼 图 的 各 部 分 标签 。 

colors 人 尽 图 的 各 部 分 颜色 ， 使 用 GRB 标 颜 色 。 
explode 一 一 逢 要 突出 的 块 状 序列 。 


autopct 一 一 人 饼 图 占 比 的 显示 格式 。 例 如 %.2f: 保留 两 位 小 数 。 
【 例 4-30】 绘 制 饼 图 : 


import numpy 
import matplotlib 
1mport matplotl1]ib.pyplot as plt 


from pandas import read csyv 
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df = read csv{('e:\\rz20.csv',Ssep="',") 
df 
Co ll 
id band num price 
O9130 因 123 9 159 
1 2 a Ne ]24 153 
2 3 1 32 1]25 456 
3 4 133 电信 126 852 


gb=df .groupby (by=['band'],as index=False) ['num'] ,agg {({'price' :numpy.size 
b=df by (by=[ "band")] _1nd 有 二 | (PEL i ze)) 


gb 
TatT2d 

band price 
0 130 联通 
1 131 引 
2 1 攻 
有 人 下 
# 为 了 便于 图 中 显示 中 文 


font = {family':'SimHeli"'} 

matpleot lim. Te tomnt winnt 

# 画 饼 图 

PlcepLreloDl Prueoe | Lamels om Band | SEopet 
plt.showl) 


结果 如 图 4-11 所 示 。 


图 4-11 饼 图 


RE 注意 : 在 画图 时 ， 所 有 的 字段 中 的 数据 列 含有 中 文 的 要 注意 它 所 保存 的 格式 必须 是 
utf8， 否 则 会 报错 。 可 以 用 记事 本 打开 看 看 的 格式 ， 方 法 如 图 4-12 所 示 。 
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国王 20 -记过 本 
2 = 


3 Cs 半 5 记 个 | 二 ?+ 此 电脑 1 otfhice Ed ， “= 之 寺 "omce TEND" 有 
由 1 台电 ' 壤 , 1a6， BE 
| 让 引 -新 姐 立 件 交 笃 | 
时 醒目 点 至 称 禄 下 日 是 点 型 
到! 此 电脑 [i EE 2016-6-2 1:11 交 件 实 
Desktop BaiduYunDownload a 下: 在 误 忻 实 
古朴 是 DTLFolder 2016-3-11 15:16  。 立 件 详 
男 四 片 KG 205-5-29 17:45 京 件 志 
本 ECwnmlas 本 1 了 三 1 站 件 关 
司 玄 恒 sh onadrive 2015-6-1 底 忻 去 
晤 上 些 教育 厅 公 六 15-1 i 
小 言 乐 次 种 寺 朗 目 录 2015-12-4 10:59 - 
二 本 地 三 由 [万 :] 图 rz20 15-3-16 10 训 夺 训 村 
二 ED [Diy 
| == 的 ce [E:} 
Private (FF) 
-证 辐 必 ct 3 | 
文 忻 &[NJ: | 加 4 
Sseum YEri 7 
A 阳 入 宛 件 实 师 友 (EN LUTF-8 < | ma | 


图 4-12 存储 为 utf-8 格式 
4.5.2” 散 点 图 


散 扣 图 (scatter diagram) 是 以 一 个 变量 为 模 坐 标 ， 男 一 个 变量 为 纵 坐 标 ， 利 用 散 所 (坐标 
凡 ) 的 分 布 形态 反映 变量 关系 的 一 种 图 形 。 相 关 的 方法 如 下 : 


ELC BEL IR 。 COLor Trrg el) 

plt .xlabel('x 轴 坐 标 ') 

plt .ylabel('y 轴 坐 标 ' 

Blt.orlid (True) 

x、y 一 一 XX 轴 和 YY 轴 的 序列 。 

小 乓 还 是 大 拟 。 

Color- 一 一 散 点 图 的 颜色 ， 可 以 用 RGB 定义， 也 可 以 用 英文 字母 定义 。 
RGB 颜色 的 设置 : (red,green,blue)， 由 红 绿 蓝 颜色 组 成 。 

常用 GRB 颜色 见 表 4-7。 


总 守 


二 
.。™» 0 


表 4-7 常用 GRB 颜色 对 照 


必 工 习 #FFFFFF 
(0, 0, 0) #000000 
(1, 0. 0) #FFOOOO 
orange (1, 0.5 0) #FFA500 


yellow (1, 1, 0) 站 FFFFOO 
(0, 1, 0) #00FFOO 
(0, 0, 1) #0O00O0FF 
(0.3, 0, 0.5) #4BOO082 
(0.63, 0.13, 0.95) #A020F0 


.7 人 
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例如 : 
import matplotlib 
import matplotlib.pyplot as plt 
from pandas import read CSV 
dF ead ore Mr22U0 osv Sep 7 
df 
Out[1]: 
id band num price 
0 J 130 联 表 ]23 159 
1 2 131 124 外 
2 污 1 25 456 
3 4 133 电信 126 852 
# 为 了 便于 图 中 显示 中 文 
font = {family':'SimHei"'} 
matolotliy. ol tornt tonty 
# 画 图 
El oe ee | me | 
plt.xlabel (price') 
Plt.ylabel (num’') 
plt.ogrid (True) 
Plt.showl) 
结果 如 图 4-13 所 示 。 
126. 0 
125. 5 
125. 0 
外 124.5 
124.0 
123. 5 
123.0 . \ 
100 民用 -00 da00 J00 0 -0 W000 


Br ice 


图 4-13 散 点 图 
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4.5.3 ”折线 图 


> | 志 


= = 


轴 ，1ist2 做 成 纵 轴 。 


折线 图 也 称 趋 势 图 ， 它 是 用 下 线段 将 各 数据 点 连 接 起 来 而 组 成 的 图 形 ， 以 折线 方式 显 
示 数 据 的 变化 趋势 。 相 关 的 方法 如 下 : 


Bplot (x,Y, 
title (' 图 的 标题 ') 


ET 


-为 国 线 的 样式 。 有 多 种 样式 ， 详 见 表 4-8。 


2,3,4 


表 4-8 ”plot 函数 画 线 样式 释义 


说 明 
连续 的 曲线 
连续 的 虚线 
连续 的 用 带 点 的 曲线 
由 点 连 成 的 曲线 
小 点， 散 点 图 
大 点 ， 散 点 图 
像素 点 ( 更 小 的 点 ) 的 散 点 图 
五 角 星 的 上 把 ， 散 扣 图 
右 角 标记 散 点 图 
左 角 标记 散 点 图 
伞 形 上 (下 左右 ) 标 记 散 氮 
正方 形 标记 散 点 图 
五 角 星 标记 航 点 图 
下 三 角 标 记 艇 后 图 
上 三 角 标 记 散 点 图 
多 边 形 标 记 散 点 图 
钻石 标记 散 点 图 


下 例 主 要 是 实现 以 学 号 的 后 三 位 为 横 轴 ， 总 分 为 纵 轴 ， 男 折线 图 。 分 三 步 。 

第 一 ， 实 现 提 取 学 号 后 三 位 。 

第 二 ， 为 了 实现 按 学 号 后 三 位 排序 ， 就 得 实现 学 号 后 三 位 与 相应 的 总 分 构成 一 对 ， 再 
排序 ， 否 则 学 号 后 三 位 排序 了 ， 但 对 应 不 上 相应 的 总 分 。 

第 三 ， 按 照 学 号 后 三 位 与 总 分 的 序 对 顺序 拆 分 成 listl 和 list2 两 列 ， 再 把 listl 做 成 横 


第 4 章 Python 数据 分 析 实 瞩 全 


【 例 4-31】 绘制 折线 图 : 


import matplotlib 


from pandas import read excel 


from matplotlib import pyplot as plt 


Eee 
df 
CUt [|] : 

学 写 班级 姓名 性 别 英语 体育 军训 数 分 高 代 解 几 计算 机 基础 总 分 
0 2308024241 23080242 成 龙 男 76 78 77 40 23 60 89 443 
1 2308024244 23080242 周 怡 女 66 91 75 47 47 44 82 452 
2 2308024251 230802a22 张波 郧 85 8281 75 45 45 “60 80 471 
3 2308024249 23080242 朱 洛 内 65 50 80 72 62 71 E 7132 
4 2308024219 23080242 所 印 女 73 88 92 61 47 46 83 490 
5 2308024201 23080242 人 述 培 男 60 50 89 71 76 71 82 499 
B29080224347 23080243 二 6676132617 65 78 83 499 
7 2308024307 23080243 陈 田 男 76 79 86 69 40 69 82 501 
8 2308024326 23080243 作 旦 男 66 67 85 65 61 71 95 510 
9 9006243200 2080243 2 4562096509909 ED 57 977 el 
10 2308024342 23080243 李 上 初 男 76 90 84 60 66 60 82 518 
11 2308024310 23080243 郭 窦 女 79 67 84 64 64 79 85 522 
12 2308024435 23080244 美 教 涛 男 77 71 87 61 73 76 82 527 
13 2308024432 23080244 赵 宇 男 74 74 88 68 70 71 85 530 
14 2308024446 23080244 周 路 女 76 80 77 61 74 80 85 533 
15 2308024421 23080244 林 建 祥 男 72 72 81 63 90 75 85 538 
16 2308024433 23080244 李 大 强 男 79 76 77 78 70 70 89 539 
17 2308024428 23080244 李 侧 通 男 64 96 91 69 60 77 83 540 
18 2308024402 23080244 王宫 区 73 74 93 70 71 了 5 88 544 
19 2308024422 23080244 李 晓 有 党 男 85 60 85 72 72 83 89 546 


# 提 取 学 号 后 三 位 并 打印 出 来 
def right3 (df,a): 


Lm | 


实现 提取 学 号 后 三 位 


时 | 


11st0=|] 


listl=list (df[al]) 


far 了 1 Tiati: 


1=str (i) 
list2=1i1[-3:] 
list0 .append(l1ist2) 


return listO 


.477N. 
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533, 
538, 
539, 
540, 
544, 
546] 


# 构 成 “学 号 后 三 位 ”与 “ 思 分 ”对 应 的 list 


def dic3 (a,b): 
组 成 数 对 ， 并 排序 
| 
for k in range (len (a)): 
d= (a lk]y DLE|) 
t .appendt{(d) 
七 .Sortt() 
return 七 
df di=dic3{df ri,df va) 
df di 
Out[4]: 
及 生性 全 


(DLO 
(rod 
("244', 
('2497, 
CTBT 
("307 
(310", 
C07 
('326', 
L03427 
3 
(54021， 
("al 
( 422 9， 
(1428 1， 
(432 9， 
(5433 1 ， 
('4351', 
('446', 


14907) ， 
14431) ， 
VD 
'4827), 
A 
'501'), 
.5221) ， 
下 了 
eb 
'518'), 
149951) ， 
'544'), 
'5387'), 
'546'), 
Todo0ry., 
De 
'539'), 
'527'), 
'533')] 


# 将 数 对 拆 成 两 列 
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sd Lr Tange lem dd 
list2=[df dil[li] [1] for i in range ‘len (df di)}] 


# 为 了 便于 图 中 显示 中 文 
font = {'fami]ly':'SimHei'} 
matplotlib.rc{('font’',**font) 


# 用 '--' 画 顺 滑 的 曲线 ，1ist1 作为 横 轴 ，1ist2 作为 纵 轴 
Blt.plottlistl, list2," =") 

plt .title(' 学 号 与 总 分 折线 图 ') +# 图 的 标题 

Plt .show'!) 


Out [5]: [<matplotlib.l]ines.Line2D at Ox2c /e463e180>] 


结果 如 图 4-14 所 示 。 


上 


与 总 分 折线 图 


EE 
学 号 


[ 


图 4-14 折线 图 


4.5.4 柱 形 图 


柱 形 图 用 于 显示 一 段 时 间 内 的 数据 变化 或 显示 各 项 之 同 的 比较 情况 ， 是 一 种 单位 长 度 
的 长 方形 ， 根 据 数据 大 小 绘制 的 统计 图 ， 用 来 比较 两 个 或 以 上 的 数据 (时 间或 类 别 )。 


涉及 的 主要 方法 如 下 : 


bar (left,height,width,color) 
barh (bottom,width,height, color) 


x 轴 的 位 置 序列 ， 一 般 采 用 arange 函数 产生 一 个 序列 。 


left 


height 一 一 y 办 的 数值 序列 ， 也 了 束 是 柱 形 图 高 度 ， 一 般 束 是 我 们 需要 展示 的 数据 。 


width 一 一 柱 形 图 的 宽度 ， 一 般 设 置 为 1 即 可 。 


color- 一 一 柱 形 图 的 填充 颜色 。 
【 例 4-32】 绘 制 柱 形 图 : 


import numpy 


import matplotlib 
from pandas import read excel 
from matplotlib import pyplot as plt 


df = read excel ('e:\\r2zZ4.xXlsx',Ssep=",") 
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gb=df .groupby (by=[' 学 号 "])[' 总 分 '] .agg ({' 总 分 ' :numpy .sum}) 


index=numpy.arange (gb[' 总 分 '] .size) 


gb 
DIE 

总 分 
0 
2308024201] 499 
2308024219 490 
2308024241 443 
2308024244 452 
2308024249 482 
2308024251 471 
2308024307 501 
2308024310 322 
2308024320 511 
2308024326 510 
2308024342 518 
2308024347 499 
2308024402 544 
2308024421 538 
2308024422 546 
2308024428 540 
2308024432 530 
2308024433 539 
2308024435 521 
2308024446 533 
lndex 
Out[2]: 
arrayt{[ O00, 1,， 
二 
# 为 了 便于 图 中 显示 中 文 


font = {family"':'"'SimHeli"} 


matolotliio ol Font .<*EoOnty 


# 坚 同 柱 形 图 
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Plt .title(' 坚 向 柱状 图 学 号 -总 分 ') 
It ar lin | I lr 
Plt.xticks (index + 1l1/2,gb.index, rotation=90) 


# 为 了 防止 图 中 的 横 坐 标 数 据 重 登 ， 选 择 rotation=90 
plt.show () 


结果 如 图 4-15 所 示 。 


09024942 


2308024447 
2409024402 


2308024201 
2308024219 
230802424| 
2308024244 
2903024249 
较 。 2308024251 
人 2308024307 
2308024310 
2908024320 
2308024326 
岗 。 2908024421 
08024422 
2308024428 
2308024432 
2308024433 
2308024435 


-15” 竖 向 柱 形 


相应 的 模 同 柱 形 图 代 公 如 下 : 


# 横 向 柱 形 图 

Plt .title(' 横 向 柱状 图 : 学 号 -总 分 ') 

Blt baritinder Gb a | | ol or = 
plt.vyticks (index + 1/2,gb.index) 

plt .show'!) 


结 条 如 图 4-16 所 示 。 


横向 柱状 图 : 学 号 -总 


0024219 
ZI04024201 
0 100 a0 00 0 00 0 


图 4-16 横向 柱 形 图 


.182\， 
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4.5.5 直方 图 


直方 图 (Histogram) 是 用 一 系列 等 览 不 等 高 的 长 方形 来 绘制 的 ， 客 度 表 示 数 据 范围 的 同 
高 度 表 示 在 给 定 间 隔 内 数据 出 现 的 频数 ， 变 化 的 高 度 形 态 表 示 数 据 的 分 布 情况 。 
涉及 的 方法 如 下 : 


hist (x, color,bins,cumulative=False) 


需要 进行 绘制 的 向 量 。 

color 一 一 直方 图 填 元 的 闫 色 。 

设置 直方 图 的 分 组 个 数 。 

cumulative 一 一 设置 是 否 累 积 计数 ， 默 认 是 False。 
【 例 4-33】 绘制 直方 图 : 


TmPoare MLDpLeLLL 


bins 


ftrom pandas import read excel 


from matplotlib import pyplot as plt 


font = {'family':'SimHei"} 
matplotlib.rc{('font',**font) 


plt.hist (df[' 关 分 '"] ,bins=20, cumulative=True) 
plt .title(' 总 分 直方 图 ') 
plt.show') 


结果 如 图 4-17 所 示 。 


总 分 且 方 医 


号 do 喘息 局 “WU 0 0 


图 4-17 直方 图 
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本 草 小 缩 


本 草 主 要 学 习 了 利用 Pandas 库 进 行 数据 准备 、 数 据 人 处理、 数据 分 析 和 数据 可 视 化 等 内 
容 。 尤 其 是 数据 的 整理 清洗 ， 在 数据 分 析 工 作 量 中 占 到 了 很 大 的 比 旱 。 如 何 快 速 地 整理 数 
据 是 本 章 的 重点 。 


练 3 


班主 任 现 有 一 班级 的 两 张 表 ， 如 下 ， 
表 一 : 成 绩 表 


Python 
16010203 96 
16010210 83 
16010205 82 
16010213 67 
16010215 85 
16010208 6 
16010209 92 
16010204 89 | 铅 | 
1601021] 75 
16010212 6 
16010206 6 so |& 
16010214 0 |» |9 
0 


16010207 


性 
Ji0 


姓名 手机 号 码 
张 三 16699995521 
李 四 16699995522 
i 16699995523 
赵 六 16699995524 
郑 七 16699995525 
钱 八 16699995526 
张 干 16699995527 
赵 六 16699995528 
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续 表 
姓名 手机 号 码 
李 韦 16699995529 
于 日 16699995510 
a 16699995511 
恤 二 16699995512 
余 一 16699995513 


请 帮助 班主 任 做 如 下 工作 。 

(1) 给 成 绩 表 加 上 姓名 列 。 

(2) 给 成 绩 表 加 上 “总 分 ” 列 ， 并 求 出 总 分 。 

(3) 增加 列 字段 “等 级 ”， 标 注 每 人 的 “ 优 、 恨 、 中 、 有 及格、 差 ”( 三 90 优 ， 三 80 
良 ， 宇 70 中 ， 三 60 及 格 ，<60 差 )。 

(4) 计算 各 门 课程 的 平均 成 绩 以 及 标准 差 ， 

(5) 做 一 总 分 成 绩 分 布 图 ， 纵 坐标 表示 成 绩 ， 横 坐标 表示 学 号 ， 遂 出 总 分 的 均 分 横 
线 ， 让 每 位 同学 的 总 分 圆 点 分 布 在 均 分 线 上 下 ， 以 观察 每 位 同学 的 成 绩 离 开 均 分 的 距离 。 
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5.1 文件 读 写 操作 


Python 提供 了 必要 的 函数 和 方法 进行 默认 情况 下 的 文件 基本 操作 。 


如 读 写 文件 : 

E Cpenl DD an tat # 打 并 aa .txt 文件 

content = f.readt) # 计 取 aa .txt 区 件 的 内 容 

f = open('D:\\aa.txt','a+')  #'a+' 指 打开 aa.txt 并 在 文件 尾 可 续 瑟 


f .write('www.i-nuc.com;\n\t 爱 中 北 '+'\n') 


# 写 入 内 容 ， 写 完 换行 或 者 加 一 行 语句 。f .write('\n') 也 能 实现 写 完 之 后 换行 


f.closel) # 太 时 关闭 文件 
打开 一 个 文件 的 不 同 模式 如 表 5-1 所 示 。 


Wi 


和 十 


表 5-1 打开 文件 的 各 种 模式 


描述 
打开 一 个 文件 为 只 读 模 式 ， 文 件 指针 位 于 该 文件 的 开头 。 这 是 默认 模式 
打开 一 个 文件 ， 只 能 以 二 进 制 格式 读 取 ， 文 件 指针 置 于 该 文件 的 开头 
打开 用 于 读 取 和 写 入 的 文件 ， 文 件 指针 将 会 在 文件 的 开头 
打开 用 于 读 取 和 写 入 二 进 制 格式 的 文件 ， 文 件 指 针 将 会 在 文件 的 开头 
打开 一 个 文件 ， 只 写 ， 如 果 该 文件 存在 ， 则 覆盖 该 文件 ; 如 果 该 文件 不 存在 ， 则 创建 一 个 
新 文件 用 于 写 入 
打开 一 个 文件 ， 只 能 以 二 进 制 格 却 写 入 ， 如 采访 文件 仔 在 ， 则 复 盏 该 文件 ， 如 朱 访 文件 不 
存在 ， 则 创建 一 个 新 文件 用 于 写 入 
打开 用 于 写 入 和 读 取 的 文件 ， 如 果 文 件 存 在 ， 则 有 覆盖 现 有 的 文件 ; 如 果 该 文件 不 存在 ， 则 
创建 一 个 新 文件 用 于 写 入 
打开 用 于 写 入 和 读 取 的 二 进 制 格式 的 文件 ， 如 果 文 件 存 在 ， 则 用 荔 现 有 的 文件 ; 如 果 记 文 
件 不 和 存在， 则 创建 一 个 新 文件 ， 用 于 写 入 
打开 退 加 文件 ， 文 件 指针 是 在 文件 的 结尾 ， 也 就 是 说 ， 该 文件 处 于 附加 模 却 。 如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 用 于 写 入 
打开 妃 加 的 二 进 制 格式 的 文件 ， 文 件 指针 在 谥 文件 的 结尾 ， 也 束 是 访 ， 访 文件 为 过 加 模 
式 ; 如 果 该 文件 不 存在 ， 则 创建 并 写 入 一 个 新 的 文件 
打开 为 退 加 和 读 取 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 退 加 模式 ; 如 果 该 文件 
不 存在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 
打开 一 个 追加 和 读 取 的 二 进 制 格 式 的 文件 ， 文 件 指针 在 该 文件 的 结尾 ， 该 文件 将 为 追加 模 
式 ; 如 果 该 文件 不 行 在 ， 则 创建 一 个 新 文件 ， 并 读 取 和 写 入 该 新 文件 
以 二 进 制 的 形式 打开 文件 


5.1.1 文件 的 读 写 万 法 


文件 对 象 提供 了 三 个 “ 读 ” 方 法 : .read0、.:readlineO0 和 .readlinesO0。 每 种 方法 可 以 接 
受 一 个 变量 ， 以 限制 每 次 读 取 的 数据 量 ， 但 它们 通常 不 使 用 变量 。.read0) 每 次 读 取 整个 文 
件 ， 它 通常 用 于 将 文件 内 容 放 到 一 个 字符 串 变 量 中 。 然 而 .read0 生 成 文件 内 容 最 直接 的 字 
人 竺 串 表 示 ， 如 有 条 文件 大 于 可 用 内 存 ， 则 不 可 能 实现 这 种 处 理 。.readlineO0 和 .readlinesO 之 辐 
的 差异 是 后 者 一 次 读 取 整个 文件 。 像 ,read0 一 样 ，.readlinesO 目 动 将 文件 内 容 分 析 成 一 个 
行 的 列表 ， 该 列表 可 以 由 Python 的 for ... in . 结构 进行 处 理 。 另 一 方面 ，.readlineO 每 次 
只 读 取 一 行 ， 通 利 比 .readlinesO 悍 得 多 ， 仅 当 泓 有 足够 内 存 可 以 一 次 该 取 整个 文件 时 ， 才 
使 用 .readlineO。 

@@ FF.read([size]): size 为 读 取 的 长 度 ， 以 byte 为 单位 ， 将 文件 读 入 FF 作为 一 个 整体 

字符 串 。 
@ F.readline([size]): 读 一 行 ， 每 操作 一 次 读 取 一 行 ， 如 果 和 定义 了 size， 有 可 能 返回 
的 只 是 行 的 一 部 分 ; 同 F.next0 方 法 。 

@ F.readlines([size]): 把 文件 每 一 行 作为 一 个 list 的 一 个 成 员 ， 并 返回 这 个 list。 其 
实 它 的 内 部 是 通过 循 坏 调用 readline0 来 实现 的 。 如 有 条 提供 size 参数 ，size 是 表示 
读 取 内 容 的 总 长 ， 也 就 是 说 ， 可 能 只 读 到 文件 的 一 部 分 。 
F.write(str): 把 str 写 到 文件 中 ， 但 writeO 并 不 会 在 str 后 加 上 一 个 换行 符 。 
F.writelines(seq): 把 seq 的 内 容 全 部 写 到 文件 中 。 这 个 函数 也 只 是 机 械 地 写 入 ， 
不 会 在 每 行 后 面 加 上 任何 东西 。 

当 读 取 很 大 的 文件 时 ， 第 用 fileinput 模块 : 


import fileinput 
for line in fileinput,input('D:\\aa.txt'): 


print (line) 


还 可 以 直接 使 用 for， 也 是 常用 的 模式 之 一 : 


人 
for lirne 工 站 十: 


print (ll]1ine) 


方法 很 多 ， 还 可 以 列表 解析 一 一 使 用 行 函 数 (列表 函数 ): 


[line for line in open{('D:\\aa.txt')] 


使 用 open 打开 文件 后 ， 一 定 要 记得 调用 close0 方 法 关闭 文件 。 比 如 可 以 用 try-finally 
语句 来 确保 最 后 能 关闭 文件 : 


wn》 Python 数据 分 析 基 而 


区 = ee 


trIv: 


all the text = file obJject.read!) 


finally: 


ie ropect close ly 


类 注意 : ”不 能 把 open 语句 放 在 try 块 里 ， 因 为 当 打 开 文 件 出 现 异 常 时 ， 文 件 对 象 


file object 无 法 执行 closeO 方 法 。 


5.1.2 ”文件 的 其 他 方法 


9.1.3 


./190\. 


文件 的 其 他 方法 说 明 如 下 。 
@ 上 .close0: 关闭 文件 。Python 会 在 一 个 文件 不 用 后 目 动 关闭 文件 ， 不 过 这 一 功能 


1. 


没有 人 怀 证 ， 最 好 还 是 养 成 “手动 ”关闭 的 习惯 。 如 末 一 个 文件 在 关闭 后 还 对 其 进 
行 操 作 ， 会 产生 ValueError。 

F.fltushO: 把 缓冲 区 的 内 容 写 入 硬盘 。 

F.fileno0: 返回 一 个 长 整 型 的 “文件 标签 ”。 

F.isatty(): 文件 是 否 是 一 个 终端 设备 文件 (Unix 系统 中 的 )。 

F.tell0: 返回 文件 操作 标记 的 当前 位 置 ， 以 文件 的 开头 为 原点 。 

F.nextO: 返回 下 一 行 ， 并 将 文件 操作 标记 位 移 到 下 一 行 。 当 我 们 把 一 个 file 用 于 
for ... in file 这 样 的 语句 时 ， 惑 是 调用 next0 函 数 来 实现 授 历 的 。 
F.seek(offset[,whence]): 将 文件 操作 标记 (指针 ) 移 到 offset 的 位 置 ，offset 一 般 是 
相对 于 文件 开头 来 计算 的 ， 一 般 为 正 数 。 但 如 果 提 供 了 whence 参数 ， 就 不 一 定 
了 ，whence 可 以 为 0， 表示 从 头 开 始 计算 ， 为 1 表示 以 当前 位 置 为 原点 计算 ， 为 
2 表示 以 文件 末尾 为 原点 计算 。 需 要 注意 ， 如 果 文 件 以 a 或 a+ 的 模式 打开 ， 每 次 
进行 写 操作 时 ， 文 件 操作 标记 会 自动 返回 到 文件 末尾 。 可 以 使 用 F.tell0 查 询 指 针 
当前 的 位 置 。 

F.truncate([size]): 把 文件 裁 成 规定 的 大 小 ， 积 认 的 是 裁 到 当前 文件 操作 标记 的 位 
置 。 如 果 size 比 文件 的 大 小 还 要 大 ， 依 据 系 统 的 不 同 ， 可 能 是 不 改变 文件 ， 也 可 
能 是 用 0 把 文件 补 到 相应 的 大 小 ， 也 可 能 是 以 一 些 随机 的 内 容 加 上 去 。 


文件 的 存储 和 读 取 


pickle 


先 看 个 例子 : 


import pickle 

a= [1,2,3,4,95] 

f=open('test01.dat', 'wb') # 将 以 wb 格式 打开 (没有 则 新 建 ) 文件 
pickle.dump (a, ff) # 将 文件 a 存 入 工 中 


f.closel() 


这 个 过 程 叫 文件 序列 化 ， 面 对 较 大 对 象 时 ， 建 议 dump0 使 用 参数 True， 能 够 节省 不 少 
宇 间 ， 即 上 例 中 可 以 改 为 pickle.dump(a,f,True)。 

文件 存 进 去 了 ， 还 需要 能 读 取 出 来 ， 继 续 看 例子 : 

f=open('test01.dat', 'rb')  # 将 以 zb 格式 打开 或 新 建 一 个 文件 


d=pickle.loadt{f) # 从 ££ 中 读 取 
f.closel() 


.| 


2. shelve 


pickle 可 以 完成 一 些 简 单 的 存 取 工作 ， 但 对 更 复 灯 的 工作 ， 还 是 有 点“ 力不从心 ”。 
于 是 就 有 了 shelve，shelve 的 操作 有 点 像 字典 ， 更 接近 于 数据 库 。 例 如 : 


import shelve 

s=shelve.open('test02.db') # 打 开 或 新 建 一 个 文件 
s['name']="'yubg' # 给 文件 键 赋值 
s['sex'|]="'man' 

s[l'age'"']=40 

s['demo"']=['He is a teacher.'l] 


Ss.closel() 


s=shelve.open('test02.db") 
TEST # 读 取 s 的 全 部 内 容 时 可 以 使 用 for 来 过 历 


for 江 1n 5 


en le 


demo: ['He is a teacher. '|] 
name: yuboa 
Sex: man 


age: 40 


但 需要 注意 ， 如 果 要 给 demo 洪 加 一 些 内 容 ， 可 以 这 样 做 : 


import shelve 
Ss = shelve.open('test02.db') 


Python 数据 分 析 基础 


S| demo | .appendl{l and ne teaches matn. ) 


print{s['demo']) 


['He is a teacher.'] 


从 内 容 上 来 看 ， 好 像 没有 添加 进来 啊 ? 猜 对 了 ! 要 想 添加 成 功 ， 务 必 在 打开 文件 的 时 
候 多 添加 个 参数 : writeback=True。 例 如 : 

import shelve 

s = shelve.open('test02.db',writeback=True) 

S| demo | .appendt{ and ne teaches matn. ) 

print{s['demo"']) 


Ss.closel() 


['He is a teacher.', ‘and he teaches math.'] 


说 明 : 在 增加 和 删除 以 及 查询 时 ， 都 要 看 其 类 型 ， 如 demo 是 string， 则 append 是 
添加 不 成 功 的 ， 因 为 str 类 型 就 不 允许 添加 。 本 例 中 是 list， 所 以 添加 成 功 。 
当然 ， 如 果 删 除 name 这 个 key， 可 以 用 del， 但 是 demo 就 不 可 以 了 ， 只 能 
用 .pop0， 


S = Shelve.openl('test02.db") 


del] s['name'"| 


for 1 lin 3: 


rm 
Sex: man 


demo: ['He is a teacher.'l]| 


age: 40 


5.2 ”with 语句 


with 语句 适用 于 对 资产 进行 访问 的 场合 ， 硝 你 不 管 使 用 过 程 中 是 个 及 生 开 第 ， 都 会 执 
行 必要 的 “清理 ”操作 ， 释 放 资 源 。 比 如 文件 使 用 后 目 动 关 团 、 线 程 锁 的 目 动 获取 和 释 


放 等 。 例 如 : 
f = openl('D:;\\aa.txt') 
try: 
content = f.readt{) 
finally: 


f.close(l) 


这 段 代 码 太 元 长 了 ，with 有 更 优雅 的 语法 ， 可 以 很 好 地 处 理 上 下 文 环境 产生 的 异常 。 
下 面 是 with 版 本 的 代码 ， 自 动 帮 我 们 关闭 文件 : 
with opent({"/tmp/foo.txt") as £: 
data = f.readl() 
比较 下 面 两 段 程序 代码 。 
代码 一 : 
with open(r'fileName') as f: 
for Jine in ff: 
print (line) 
代码 二 : 
f = openl(r'fileName') 
try: 
a es 0 0 
print (line) 
finally: 
f.closel) 


比较 起 来 ， 代 码 一 优 于 代码 二 ， 使 用 with 语句 还 可 以 减少 编码 量 。 再 如 : 


with open(r'd:/aa.txt') as f£: 
for line in ff: 
Br Int me 


以 上 三 行 代码 主要 实现 了 以 下 四 项 工作 。QD 打开 D 入 文件 aa.txt; 己 将 文件 对 象 赋 
全 给 f; (3 将 文件 所 有 行 输 出 ; 由 无 论 代 但 中 和 是否 出 现 异 种 ，Python 都 会 天 财 这 个 文 
件 ， 不 必 天 心 这 些 细节 。 


5.3 Anaconda 下 安 六 statsmodels 包 


statismodels 是 一 个 Python 包 ， 提 供 一 些 互 补 scipy 统 
计 计 算 功 能 ， 包 括 描述 性 统计 和 统计 模型 佑 计 和 推断 。 但 里 址 000 咱 
是 ，Anaconda 却 并 不 包含 statismodels 包 ， 需 要 我 们 目 | tin tse 
己 来 安装 。 

若 已 经 安装 了 Anaconda， 则 从 开始 菜单 中 选择 
Windows 系统 中 的 “命令 提示 符 ” 命 令 ， 如 图 5-1 所 示 。 

在 弹出 的 命令 提示 符 窗 口中 ， 输 入 如 下 命令 ， 并 且 按 


Enter 键 : 5-1 菜单 中 命令 提示 符 


二 任 条 管理 需 


”和 令 提 示 符 


mm Python 数据 分 析 基 础 


Conda install statsmodels 


等 待 安装 ， 如 图 5-2 所 示 。 


加 本 市 全 捍 示 人情 - Conda install statsmodels 


Nicrosoft Windows [MR 本 10.0. 10240j 


(ce) A015 Microsoft Corporatlion. All riehts res 


C:\Users\yubg>»Conda install statsmodels 


5-2 安装 Python 包 文 件 


如 果 发 现 Anaconda 有 升级 的 文件 ， 根 据 提示 输入 y 即 可 升级 ， 如 图 5-3 和 图 5-4 所 示 。 


Nicerosoft Windowes [RE 10.0. 10240] 
(ce) 2015 Microsoft Corporation. All right. 


betonda 1nstall statsmodels 


[ 
| 
1 


ws2015 runtime-1d. O0. 23026.0 
rthon—3. GB. 1 


menuinst-—1. 3.2 


ii) CIl 


‘= 


Pip—B8. 1.1 
EYthon—dateutil—2. 5. 1 


be INSTALLED: 


.2 OO- 


1 be UFDATED: 


IEIILLL 防己 七 : 

ITUITISY - 

pandas: 

pip: 

Ython: 
python-dateutil: 
Pyte: 


Proceed f [Ly] i'n 1 9 


图 5-3” 包 文件 安装 截图 


第 5 章 其 他 


hae followine packages Will be UEDATED : 


Onda: 训 。 py 
manulnst: . ] -py35 
ITY: D0. 1 -py35 
pandas: 17. 1-npl10 
pip: 2- 
python: 
python-dateutil: 


A 中 5 
MY 


DN 


. 


1 
| 
1. 
5. 
1s. 
11 


pyyaml: 
redquests: 


| I 
! 而 


manuinst-1. 3. 2 100% | 帮 痒 相 丰 宪 笠 样 妊 衬 衬 妊 科 痒 样 妊 宪 笠 笠 妊 衬 衬 妊 科 痒 样 帮 幸 笠 帮 和 帮 | Time: 0O:00:02 37.50 kB/s 
Etchine packases 


ml1=11. 3. 1=0.+ 6 吕 | 者 舌 lime: Oi:O0l:4r 48. 16 kB/s 


5-4 ” 包 文 件 升 级 截图 


5.4 关于 Spyder 表面 恢复 默认 状态 的 处 理 


在 使 用 Spyder 的 时 候 ， 由 于 鼠标 操作 不 当 ， 很 可 能 会 将 Spyder 默认 界面 (图 5-5) 的 工 
作 区 域 打 乱 ， 甚 至 找 不 到 功能 区 。 


二 Spyder [Python 3.5) 一 口 二 


le Edrt Secarch Source Run Debug Censoles Toeols Wew Help 


[| 儿 辐 :PeEpEDP 人 DD 为 :Pl 了 队 国 : 匠 |[ 入 [Eves <] 国 全 


Edator — Clsers\iymbe'. Spydeaz2 一 pw3WumntiItlLedo 加 半 Dhieet inspector 部 疼 
umtitled0. pyr ED antitledi. py | Fk EE Sourece [Console ™ Object | “| EI ll 
1 
5 
3 Created on Tue Mar 15 28:54:35 2816 
En EE 98 | Here ¥ou can get help of any object by pressing Ctrid 
| in front of it, either on the Editor or the Console. 
Help can also be shown automatically after writing a 
| leit parenthesis next to an object. You can Sctivate bd 
Variable explorer Object inspector 
IFvythom console [= 
TF: Console 1 园 := 
Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (tdefault, Dec 了 2815, 14:57:35) [MSC v.1988 ~ 
32 bit (Intel)] 
Type “copyrieht”, “credits™ or “license™” for more information. 
En 4.8.1 -- an enhanced Interactiwe Python 。 
-> Introduction and overview of IPython's features. 
i -> Quick reference. 
help -> Python’s own help system. 
object? -> Details about "object", use "object?}?" for extra details. 
euiref -> A brief reference about the graphical User interface. 
In [1]: 
IFython conmnsole File explorer Lonsole Historw lo 
Permissions: RW End-of-lines: CRLF Encoding: UTF-® Line: 7 Column: 1 Memory: 355 各 


图 5-5 ” ”Spyder 系统 默认 的 界面 


常见 的 处 理 方法 是 选择 菜单 栏 中 的 View 一 Panes 命令 ， 然 后 在 出 现 的 界面 中 旬 选 需要 
的 相关 功能 显示 项 。 


.(195N\. 


mm Python 数据 分 析 基 础 


图 5-6 所 示 是 一 个 锌 拖 动 打 乱 的 界面 ， 我 们 拟 恢 复原 来 系统 稚 认 的 界面 。 


才 Spyder (Python 3.5) 一 口 让 


Fle Edt Search Source Run Debug Consoles Tools Wew Help 


中国 网 PB 人 DO Pi 了 DD 国 : 苞 回信 闻 i 沾 Ew=: -| 加 甩 个 


Outline 名 益 Editor 二 C:AUsersvsyabg- spyder2-py3Wvant-- 加 x Dbject inspector 名 其 
| iten.m Emu see [Ce] ohiert 日 区 
2 untitled0.p! 里 coding: LU 二 六 -时 —*- | A | 
3 Created on Tue Mar 15 28:54:35 2816 Usage 
二 
ee yubg Here You can ger help of any objec by | 
8 pressing Ci in front of it, either on the 
可 工 让 Editor or the Console. | 
号 
Help can also be shown automatically after w | 


Variable explorer Obiject inspector | 


i [| | 
EE 生 色 市 Dutput | 
| Function/Modul Total Time Local Tirme Calls File:line | 
|| 
| IPythor. orsol ee 加 区 
| 
| 
| 
二 || 芯 > | IFython console File expl orer Comsole Historw logs | 
Permisstoms: Ri End-of-lines: CRLFE Encoding: UTF-® Lime: 呈 Column: 1 Memory: 54 六 | 


图 5-6 打 乱 了 的 Spyder 再 面 


从 采 单 栏 中 选择 View 一 Panes 命令 ， 如 图 5-7 所 示 。 


部 Spyderfpython 3.5) 一 口 
Fils Edit ssarch Source Run Debuyug Conscoles Tools Wiew | Help 
E 大 Wd Editor Ctr+Shit+E | Panes | gee 也 站 
- 一 tte Toolbars k -一 - 
Dutline 加 XX| Edit, Console Ctr+$hitft+ 亡 加 | 
[Ci 司 1Python console Ctd+Shift+l Bttached consale window rdebugging) 碟 
-Varable explorer Ctr+shift+ 
tI D0, 导 - E lS | i 
0 了 0? Dblect Inspector Ctr +Shiftt+H K J Fullscreen mode Fi11 葡 
3 EB Maximize current pane tr 二 + 访 |t+Shift+hA 
wrF if 
汉 File cxplorer Ci +ShihitX Close current pare Ctrlt+3hift+Fa 回 
2 Dutline ctr+Shift+O 
6 本 
了 Project axplorer Ctr+Shiftt+p Reset window layout bd 
8 Find in files Ctr + Shift+F Custom window layouts g 一 
”History log Ctr ehift+L Valisble explurer Dbject inspector 
wy Profiler Irvthon console 名 区 
Breakpoints 这 tri 二 Shit+ 忆 
Static code analysis 
Online halp ctrl+shift+ CD 
Intermal consale 
IFython console Frofiler 
File explurer = 
ype Date Modified 
Default,.migrated File Folder 2015-12-1 15:18:47 
Public Fle Folder 2016-1-31 10:56:44 
本 Pile EXE or er Console History lve 


Perrmissions: RW End-aof-lines: CRLF Encoding: UTF-® Line: 名 Caclurnmn: 1 hermory: S54 部 


图 5-7 ” Spyder 中 的 菜单 命令 


男 一 个 方法 是 打开 Windows 的 “开始 ”菜单 ， 找 到 Anaconda3 程序 ， 单 击 打 开 折 车 菜 
(Te6\， 


单 ， 选 择 Reset Spyder Settings 命令 ， 如 图 5-8 所 示 。 大 概 等 待 三 五 秒 钟 ， 程 序 将 自动 运行 
并 结束 。 当 再 次 打开 Spyder 时 ， 界 面 已 经 恢复 到 初 装 时 的 默认 状态 。 


Hl Anaconda3 (32-bit) 


| ! i :| 


Anaconda Cloud 2 
Anaconda Prompt Microsoft Edge | 
四 1Pywtheon 全 去 
| 16” 避 

Jupyter Notebook 9 ae 和 
IF7 Jupyter QTConsole 

Launcher 

Resct Spyder Settings 


-i Spyder 


C 


OO Cortana 


二 返回 


图 5-8 让 Spyder 恢复 默认 设置 的 菜单 命令 


5.5 ”关于 Python 计算 精度 的 问题 


首先 看 如 下 问题 : 

> a UL itysl D3 

>>> print (a) 

mis 

结果 怎么 会 是 5.55e-17 呢 ? 为 什么 不 是 0? 

分 析 : 洗 点 数 的 一 个 普通 问题 ， 是 它们 不 能 精确 地 表示 十 进 制 数 ， 即 使 是 最 简单 的 数 
学 运算 也 会 产生 小 的 误差 。 

解决 方案 有 如 下 几 种 。 

(1) 使 用 格式 化 (不 推荐 ): 


>>> a = "%.30f"™ (1/3) 

> 和 
0.33333333333333331]14829616256241" 
>>> 


可 以 显示 ， 但 是 不 准确 ， 后 和 面 的 数 子 往往 没有 音义。Python 默认 的 是 17 位 小 数 的 精 
度 ， 妆 我 们 的 计算 需要 使 用 更 融 的 精度 (超过 17 位 小 数 ) 时 ， 束 需要 采取 特殊 的 方法 。 


/197\. 


数 ， 
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(2) 使 用 高 精度 decimal 模块 ， 配 合 getcontext: 


>>> from decimal import * 

>>> print (getcontext ()) 

Context (prec=28, rounding=ROUND HALF EVEN, Emin=-999999, Emax=999999, 
capitals=l], clamp=0, flags=[], traps=[InvalidOoOperation, DivisijonBy2ero, 
Overflow]) 

>> etoontext (I Prec = 10 

>>> b = Decimal (1) /Decimal (3) 

>>> Db 

Decimal( J). 33333347333733333303300333333333033373303333333.3333 ) 

>>> cc = Decimal (ll} /Decimal (17) 

>>> 词 

Decilmal(' 0.0588235294117647058823529411764705882352941176470359 7" ) 

>>> float (c) 

U.058823529411764705 

> 之 之 


decimal 的 构建 : 可 以 通过 整数 、 字 符 串 或 者 元 组 构建 decimal.Decimal， 对 于 学 点 


需要 先 将 其 转换 为 字符 串 。 
decimal 的 context: decimal 在 一 个 独立 的 context 下 工作 ， 可 以 通过 getcontext 来 获取 


当前 环境 。 人 例如， 前 面 曾 经 提 到 过 ， 可 以 通过 decimal.getcontextO.prec 来 设 定 小 数 点 精度 
(默认 为 28): 


>>> from decimal import Decimal as D 

>>> from decimal import getcontext 

人 

Context (prec=6, rounding=ROUND HALF EVEN, Emin=-999999999, 
Emax=9099999999, capitals=]1], flags=[Rounded, Inexactl], 


traps=[DivisionByZero, Invalidoperation, Overflow]) 


>>> getcontext() .prec = 6 
>>> DI{l1)})/D(3) 
Decimal (0 .333333") 

>>> 


专 认 的 context 的 精度 是 28 位 ， 可 以 设置 为 50 位 长 至 更 局 。 这 样 ， 在 分 析 复 杂 的 译 


点 数 的 时 候 ， 可 以 有 更 高 的 可 控制 精度 。 例 如 : 


>>> from decimal import Decimal 
>>> a = Decimal('4.2") 


>>> b = Decimal('2?2.1°') 


>>> A+ bb 
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Decimal('6.3°') 

>>> print(a + b) 

2 

>>> (a + b} == Decimalt{'6.3°") 
True 

>>»> 


+? 六 注意 : decimal 中 的 数 要 把 它 当 成 str 来 处 理 ， 即 参加 运算 的 数 要 添加 单 引 号 '*， 


(3) 使 用 decimal 模块 ， 配 合 locacontext: 


>>> from decimal import localcontext 

>>> a = Decimal('l1.3') 

>>> b = Decimal (1.7°") 

>>> print(a / b) 

0.76471058823529411764705882353 

>>> with localcontext () as ctx: 
ctx.Prec = 3 


print(a / b) 


0 .765 

>>> with localcontext () as ctx: 
ctx.prec = 50 
print{(a / b) 


U.764710588235229411 764 17102882352941171647052882352941176 
> 之 这 


总 地 来 说 ，decimal 模块 主要 用 在 涉及 到 金融 的 领域 。 在 这 类 程序 中 ， 哪 怕 是 一 点 小 小 
的 误差 ， 在 计算 过 程 中 都 是 不 允许 的 。 因 此 ，decimal 模块 为 解决 这 类 问题 提供 了 方法 。 

当 Python 和 数据 库 打交道 时 ， 也 通常 会 过 到 decimal 对 象 ， 并 且 通 常 也 是 在 处 理 金 融 
数据 时 。 

在 有 些 浮 点 数 计算 问题 上 ， 可 以 利用 math 模块 来 解决 ， 例 如 : 

Un | Tl Olial 

>>> sum (nums) # 注意 结果 为 什么 不 是 1? 


0.0 
>>> 


上 面 的 错误 可 以 利用 math.fsum0 所 提供 的 更 精确 计算 能 力 来 解决 : 


>>> import math 
>>> math.fsum (nums) 
| 
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> 之 之 


Math 模块 所 供 了 以 下 功能 函数 : 


>>> import math 

>>> dir (math,) 

[OC "Dad O07 Mam 7 Packade 
"acosh', ‘asin', ‘asinh', ‘atan', ‘atanz', ‘atanh', 


CoSs ‘Cosh', degrees', ‘ey, ‘erf', "erfce', exp ', 


9 SPpec es 


'acos', 


全 二 上 于 到 


'expml', 'fabs', 


atorial "floor PTEmod Erexp ry Founm ,ganna Tood vr “nopot', 


ET Iolo ForLLIIEe DF ToLNt er Lonarn rr Tonxp 


本 


ST Vt ed 


> 之 之 


5.6 和 矩阵 运算 


5.6.1 创建 矩 阵 


算 阵 的 创建 可 以 利用 numpy 包 ， 如 创建 矩阵 A 和 B: 


>>> import numpy as np 
->> A= 三 np matt[llil zr3lr ldo0r6]]) 
>>> 六 
matrixt[[li, 2,. BI, 
[4, >, 6]]) 


> > | [3] 
>>> B= np.array (B) 
>>> B 
arrav{([[l, 2], 

[3, 4]]) 
>>> 


在 numpy 里 ，mat 是 matrix 的 一 个 别名 。 


5.6.2 ”和 矩阵 属性 


a.T: 返回 自身 的 转 置 np.array(B) 构 成 的 矩阵 仅 可 用 此 属性 )。 
a.H: 返回 自身 的 共 斩 转 置 。 

a.I: 返回 目 刁 的 他 窍 隆 。 

a.A: 返回 目 身 数据 的 二 维 数组 的 


个 视图 (没有 做 任何 的 找 贝 ) 


石 


Garrrma ， Joo ， 


Tali 


例如 : 


import numpy as np 
a.transpose () 

a.tracel() 

np.trace (a) 
np.linalg.invita) 
np.,.linalg.matrix rank (a) 
np.dot (A,B) 
np.l1inalg.det al 

Cd = np.linalg.eig {a) 
np.linalg.norm(a,ord=None) 
np.linalg.cond (ay P=None) 


a. Shape 
>>> from numpy import * 
”>> Aa=mat ("ll 2 3 4 3 了 


>>> print( (a*a.T) .I) 


CEORZ23239768 0 L3400292| 


[—05E3450232 Q.081871351]1] 


# 求 矩阵 的 秩 : 

>>> lmport numpy 
>>> i=numpy.evye (4) 
>>> 1 


array{[l[ Ts ur 0 0.]， 


[ 0. 1l.: 0 0.], 
四 
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# 返 回 行列 转 置 ， 等 同 于 a.m 
# 计算 窍 阵 a 的 迹 
# 计算 窍 阵 a 的 迹 
# 和 矩阵 a 的 道 和 矩阵 
# 求 矩阵 的 秩 
# 和 矩阵 A、B 的 乘积 
# 返 回 的 是 和 矩阵 a 的 行列 式 
# 和 矩阵 a 的 特征 值 c 和 特征 同 量 a 
# 计 算 和 矩阵 a 的 范 数 
# 和 矩阵 a 的 条 件数 
# 可 以 获取 和 矩阵 的 大 小 


>>> NuUumpyYy.linalg.matrix rank (i) 


4 


> 


5.6.3 ” 解 线 性 方程 组 


求 线 性 方程 组 AX=B 的 解 : 


np.l]inalg.solve (A,B) 


例如 : 
A=np.mat ([[l1,2],[3,4]]) 
B=np.mat([[S5S,6]])}.T 
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s=np.l1linalg.solve (A,B) 


matrix([[-4. ], 


Wr 


5.6.4 ”线性 规划 最 优 解 


看 一 个 例子 : 小 明 找 到 了 一 份 实习 工作 ， 于 是 想 租 一 个 房子 ， 最 好 离 公 司 近 扣 ， 但 是 
还 没 半 业 ， 学 校 时 不 时 还 有 事 ， 所 以 不 能 离 学 校 太 远 ; 而 且 有 时 还 要 去 女 朋友 那里 ， 她 希 


望 小 明 束 住 在 她 附近 ， 于 是 小 明 该 如 何 选择 房子 的 地 址 ? 


具体 我 们 假定 公司 、 学 校 、 女 友 在 地 图 上 的 坐标 分 别 是 (1,1)、(4,6)、(9,2)， 求 小 明 的 


租房 坐标 。 


这 里 需要 使 用 scipy 提供 的 scipy.optimize.mininize 方法 ， 首 先 需要 设计 一 个 计算 距离 


的 方程 : 


import numpy as np 


from scipy.optimize import minimize 


# 租 房 到 公司 、 学 校 、 女 友 的 距离 平方 和 最 小 方程 ， 房 子 的 华 标 : [coord[0] ,coord[1]] 


det. faeoord, Xry). 


return np.sum( (coord[0] -x)})**2+ (coord[l1] -Vv)**2) 


# 把 公司 、 学 校 、 女 友 三 地 的 坐标 保存 在 两 个 向 量 里 
x= np.array([1,4,9]) # 公 司 、 学 校 、 女 友 的 横 坐 标 
y= np.array([1,6;2]) # 人 公司、 学校、 女友 的 纵 坐 标 


# 找 一 个 起 始 把 ， 并 看 看 租房 到 三 地 的 距离 平方 和 


initial = np.array([50,5]) # 随 便 选 一 个 租房 地 址 作为 起 点 


Brint{f{initial x Vy) 


# 求 最 优 解 并 打印 
res = minimlze (lf, Initidl, ards= (YY) # 归 优化 
Tt Tr) # 打 印 最 优 的 房子 坐标 


print {f(res.x,x,y)) 


6224 
[ 4.66666667 3.00000001] 
46.6666666667 


纵 制 出 地 图 ， 标 注 上 租房 的 点 house( 如 图 5-9 所 示 ): 


import matplotlib.pyplot as plt 


labels = ['company', School', "girl'] 


plt.scatter (x, y) # 按 照 x、Y 画图 


for i in range (3): 
站 下 WE 
-res.x[lj+ylij,head length=-0.1,head width=0.1,tc="k") 
plt.text (x[i],:y[i],lJabels[i]) 


pilt.text (res.x[0], res.xX[l1], 'house") 
Plt.show!) 


0 2 司 6 9 10 


5-9 租房 地 点 house 与 其 他 三 地 的 位 置 


5.7 ”正则 表达 式 


字符 串 是 编程 时 涉及 到 的 最 多 的 一 种 数据 结构 ， 对 字符 串 进 行 操 作 的 需求 几乎 无 处 不 
在 。 比 如 判断 一 个 字符 串 是 否 为 合法 的 E-mail 地 址 ， 虽 然 可 以 编程 提取 @ 前 后 的 子 串 ， 再 
分 别 判断 是 否 是 单词 和 域名 ， 但 这 样 做 不 但 麻烦 ， 而 且 代 码 难 以 复 用 。 

正则 表达 式 是 一 种 用 来 匹配 字符 串 的 强 有 力 的 工具 。 它 的 设计 思想 是 用 一 种 描述 性 的 
语言 来 给 字符 串 定义 一 个 规则 ， 凡 是 符合 规则 的 字符 串 ， 我 们 就 认为 它 “ 匹 配 ” 了 ， 否 
则 ， 该 字符 串 就 是 不 合法 的 。 

所 以 ， 判 断 一 个 字符 串 是 否 为 合法 的 E-mail 的 方法 如 下 。 

(1) 创建 一 个 匹配 E-mail 的 正则 表达 式 。 

(2) 用 该 正则 表达 式 去 匹配 用 户 的 和 输入， 判断 是 否 合法 。 
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因为 正则 表达 式 是 用 字符 串 表 示 的 ， 所 以 要 首先 了 解 如 何 用 字符 来 描述 字符 。 
1. 准备 知识 


在 正则 表达 式 中 ， 如 果 直 接 给 出 字符 ， 就 是 精确 匹配 。 用 \d 可 以 匹配 一 个 数字 ， 用 \w 
可 以 匹配 一 个 字母 或 数字 ， 用 英文 句点 可 以 匹配 任意 字符 ， 所 以 : 

:00\d 一 一 可 以 匹配 "007:， 但 无 法 匹配 "00A:， 也 就 是 说 ，“'00" 后 面 只 能 是 数字 。 

Addd: 一 一 可 以 匹配 :010'， 只 可 匹配 三 位 数字 。 

AVwWNwWNd 一 一 可 以 匹配 ?py3:， 前 两 位 可 以 是 数字 或 者 字母 ， 但 是 第 三 位 只 能 是 数字 。 

‘py. 可 以 匹配 ‘pyc’、‘pyo’”、‘py! "等 。 

在 正则 表达 式 中 ， 用 * 表 示 任 意 个 字符 (包括 0 个 )， 用 + 表示 至 少 一 个 字符 ， 用 ?表示 0 
个 或 1 个 字符 ， 用 {n} 表 示 nn 个 字符 ， 用 {n,m} 表 示 n 到 m 个 字符 。 

下 面 看 一 个 复杂 的 例子 : \d{3}\shd{3,8}。 

从 左 到 右 解 读 如 下 。 

(1) \df3} 表 示 匹 配 3 个 数字 。 例 如 ‘010;。 

(2) As 可 以 匹配 一 个 空格 (也 包括 Tab 等 空白 符 )， 所 以 \s+ 表 示 至 少 有 一 个 空格 。 例 如 

(3) \d{3,8} 表 示 3~8 个 数字 。 例 如 ‘1234567’。 

综合 起 来 ， 上 面 的 正则 表达 式 可 以 匹配 以 任意 个 空格 隔 开 的 区 号 为 3 个 数字 、 号 码 为 
3~8 个 数字 的 电话 号 码 。 如 “021 8234567’。 

如 果 要 匹配 “010-12345: 这 样 的 号 码 呢 ?由 于 -是 特殊 字符 ， 在 正则 表达 式 中 ， 要 用 亿 ， 
转 义 ， 所 以 正则 式 应 该 是 \d{3j}\-\df3,8} 。 

但 是 ， 仍 然 无 法 匹配 ‘010 - 1234$:， 因 为 这 里 -两 侧 带 有 空格 。 所 以 需要 更 复杂 的 匹 
瑟 方 式 : 


2. 进 阶 
要 做 更 精确 的 匹配 ， 可 以 用 [] 表 示范 围 ， 比 如 : 


[0-9a-zA- 奴 \ ] 一 一 可 以 匹配 一 个 数字 、 字 母 或 者 下 划 线 。 
[0-9a-zA- 妈 ]+ 一 一 可 以 匹配 至 少 由 一 个 数字 、 字 和 母 或 者 下 划 线 组 成 的 字符 串 ， 比 如 


‘a100*、‘0 Z*、‘Py3000: 等 。 

[a-zA-Z\ ][0-9a-zA- 妈 ]*# 一 一 可 以 匹配 由 字母 或 下 划 线 开头 ， 后 接任 意 个 由 一 个 数字 、 
字母 或 者 下 划 线 组 成 的 字符 串 ， 也 就 是 Python 合法 的 变量 。 

[a-zA-Z\ ][0-9a-zA-Z ]{0，19} 一 一 更 精确 地 限制 了 变量 的 长 度 是 1~20 个 字符 (前 面 1 
个 字符 + 后 面 最 多 19 个 字 和 付 )。 


?1 


AIB 可 以 匹配 A 或 B， 所 以 (Plp)ython 可 以 匹配 ‘Python’ 或 者 ‘python’。 
^ 表 示 行 的 开头 ，A\d 表示 必须 以 数字 开头 。 
$ 表 示 行 的 结束 ，\d$ 表 示 必 须 以 数字 结束 。 
应 注意 ，py 也 可 以 匹配 ”python”， 但 加 上 ^py$ 就 变 成 了 整 行 匹 配 ， 就 只 能 匹配 py* 了 。 
具体 的 正则 表达 式 常 用 符号 见 表 5-2。 
表 5-2 正则 表达 式 的 常用 符号 


号 | 会 久 | 例子 
匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 0 a 


次 或 多 次 


匹配 前 面 的 字符 、 表 达 式 或 括号 里 的 字符 至 

Pr aabbb、abbbbb、aaaaab 
匹配 前 面 的 一 次 或 0 次 |A |AA 

匹配 任意 单个 字符 ， 包 括 数字 、 空 格 和 符号 | bd | bad、 b3d、b#d 
zero、hello 

转 义 符 ， 把 后 面 的 特殊 意义 的 符号 按 原样 输出 人 

指 字符 串 开始 位 置 的 字符 或 子 表 达 式 | 
经 常用 在 表达 式 的 末尾 ， 表 示 从 字符 串 的 末 
端 匹配 ， 如 果 不 用 它 ， 则 每 个 正则 表达 式 的 
实际 表达 形式 都 带 有 .* 作 为 结尾 。 这 个 符号 
可 以 看 成 ^ 符 号 的 反义词 


匹配 结果 


aaaaaaa、aaaaabbhb 


例 子 
Ab? 
"a 


apple、aply、asdfg 


ABDxerok、Gplu、 


A-ZI*[a-zl*$ 
| J [aa yubg、 YUBEG 


匹配 任意 一 个 由 | 分 割 的 部 分 b(ilirla)d bid、bird、bad 


不 包含 ， 这 个 组 合 经 常 放 在 字符 或 者 正则 表 


祭 了 大 写字 母 以 乡 
达 式 前 面 ， 表 示 这 些 字符 不 能 出 现 。 如 果 在 | ，，。 、。，,。。 oe hm 
AGUA-ZD). ip: nu-here、 
某 整 个 字符 串 中 全 部 排除 某 个 字符 ， 就 要 加 | 《人 : 
&hu238-@ 


上 ^ 和 $$ 符号 


baaab 、 bab 、 
表达 式 编组 ，0 内 的 正则 表达 式 会 优先 运行 i 
abaaaabaaaabaaab 


匹配 前 面 的 字符 串 或 者 表达 式 m 到 n 次 ， | gooogle、goooogle、 
{m,n} | ee go01{2,3}gle 
包含 m 和 nm 次 gooooogle、goooooogle 


[] 


\d 


VD 


a 1 
死 配 任意 一 个 不 在 中 括号 内 的 字符 sed、sead(@D、hes#23 
匹配 一 位 数字 a3、a4、a9 


这 总 
匹配 一 位 非 数 字 3A、3a、3- 


匹配 一 个 字母 或 数字 9 志和 
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3. re 模块 

有 了 准备 知识 ， 束 可 以 在 Python 中 使 用 正则 表达 式 了 。Python 提供 re 模块 ， 包 含 所 
有 正则 表达 式 的 功能 。 

由 于 Python 的 字符 串 本 身 也 用 \ 转 义 ， 所 以 要 特别 注意 : 


S = "ABC\\—001"' #Python 的 字符 串 


对 应 的 正则 表达 式 字 符 串 变 成 : 


# 'ABC\-0017 


因此 强烈 建议 使 用 Python 的 r 前缀 ， 束 不 用 考虑 转 义 的 问题 了 : 


s = r'ABC\-001' #Python 的 字符 串 


对 应 的 正则 表达 式 子 从 里 不 变 : 


# "ABC\-001" 


乞 看 看 如 何 判断 正则 表达 云 定 合 匹 配 : 


>>> limport re 
>>> re.match{(r dl3} -dd{3,8}1$', 010-12345") 
< Sre.SRE Match obJject; span=(0, 3), match="010-12345"> 
>>> re.match(r'^\d{3}\-\d{3,8}$', '010 12345°") 
> 
matchO 方 法 判断 是 否 匹 配 ， 如 果 [ 匹 配 成 功 ， 返 回 一 个 Match 对 象 ， 否 则 返回 None。 
利 见 的 判断 方法 是 : 
test = “用户 输入 的 字符 串 ， 
if re.match (r' 正则 表达 式 '， test): 
Prin GK 
else: 
print'('failed') 


# 输 出 : 

failed 

4. 切 分 字符 串 

用 正则 表达 陈 切 分 字符 串 比 用 固定 的 字符 更 灵活 ， 请 看 正和 贡 的 切 分 代码: 
3 Ll 

也 六 Sn ee i ze] 

>>> 


执行 上 面 代码 ， 结 果 显 示 ， 无 法 识别 连续 的 空格 。 下 面 运行 正则 表达 式 试 一 下 : 
.12o6\， 


> Pe SpLlitlr vat Ta le 
= es mel 


> 之 之 


无 论 多 少 个 空格 都 可 以 正常 分 割 。 下 面 加 入 “\,” 试 试 : 
人 

和 这 0 i | 

>>> 


髓 加 入 “\” 试 试 : 


> a ed GN 
人 ED led 
>>> 


如 条 用 户 输 入 了 一 组 标签 ， 可 以 用 正则 表达 却 把 不 规范 的 输入 转化 成 正确 的 数组 。 
5. 分 组 


除了 简单 地 判断 是 否 匹 配 之 外 ， 正 则 表达 陈 还 有 提取 子 串 的 强大 功能 。 用 0 表示 的 即 
是 要 提取 的 分 组 (Group)。 

例如 ^\d{3})-Qd{3,8})$ 分 别 定 义 了 两 个 组 ， 可 以 直接 从 [匹配 的 字符 串 中 提取 出 区 号 和 
本 地 号 码 : 


2 = Pe. Matehn(r (Wal) (‘dB "O10 -12345") 
>>> m 

Sree Shb Mateoeh objectr span=(t0r 37 matcn "01lb T2345 > 
>>> m.group (0) 

'010-12345" 

>>> m.groupl(1) 

'0107" 

>>> Im.group (2) 

T2345" 

>>> 


如 果 正 则 表达 式 中 定义 了 组 ， 就 可 以 在 Match 对 象 上 用 group0 方 法 提取 出 子 串 。 
注意 到 group(0) 是 原始 字符 串 ，group(1)、group(2)、…… 表 示 第 1、2、…… 
提取 子 串 非常 有 用 ， 例 如 : 


>>> t= '19:05:30" 

>>> m = re.match(r'^*(0[0-9]|11[0-9] |12[0-3] |1[0-9])\:(0[0-9]11[0-9] |2[0- 
Sl Eo ST ls 
3] [一 5 7 七] 

>>> 了 .GOUPS () 
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TO 
> 之 之 


这 个 正则 表达 式 可 以 直接 识别 合法 的 时 间 。 但 有 些 时 候 ， 用 正则 表达 式 也 无 法 做 到 完 


全 验证 ， 比 如 识 列 日 期 : 


ol 


对 于 “2-30”"、“‘4-31’ 这 样 的 非法 日 期 ， 用 正则 还 是 识别 不 了 ， 或 者 说 写 出 来 非常 困难 ， 


这 时 丈 需 要 程序 配合 识 询 了 。 


6. 贪 林 匹配 

最 后 需要 特别 指出 的 是 ， 正 则 匹配 默认 是 贫 林 匹配， 也 就 是 匹配 尽 可 能 多 的 字符 。 
举例 如 下 ， 匹 配 出 数字 后 面 的 0: 
CORE 

Le 

> 

由 于 \d+ 采 用 贫 禁 匹配 ， 直 接 把 后 面 的 0 全 部 匹配 了 ， 结 果 0* 只 能 匹配 空 字 符 串 了 。 
必须 让 \d+ 采 用 非 俩 禁 匹 配 (也 就 是 尽 可 能 少 匹 配 )， 才 能 把 后 面 的 0 匹配 出 来 ， 加 个 ? 


就 可 以 让 \d+ 采 用 非 贫 殖 匹 配 : 


>>> re.matcht(tr'^{(\dt?) (0*)$°, 1 1023001) .groups () 
Ee 
>>> 


7. 编译 
当 我 们 在 Python 中 使 用 正则 表达 式 时 ，re 模块 内 部 会 做 两 件 事情 . 
(1) 编译 正则 表达 式 ， 如 果 正则 表达 式 的 字符 串 本 身 不 合法 ， 会 报错 。 


(2) 用 编 详 后 的 正则 表达 陈 去 匹配 字符 中 。 
如 采 一 个 正则 表达 式 要 和 草 复 使 用 几 和 干 座 ， 出 于 效率 的 考虑 ， 我 们 可 以 预 编译 该 正则 表 


达 陈 ， 接 下 来 重复 使 用 时 ， 融 不 需要 编 详 这 个 步骤 了 了， 可 以 二 接 匹 配 : 


./208\. 


>>> import re 

# 编 译 : 

>>> re telephone = re.compilel(r'^(\d{3})-(\d{3,8})$') 
# 使 用 : 

>>> re telephone .match('010-12342') .groups () 

ON ee ee 

>>> re telephone .match( 01L0-8086 ) .groups () 

(oO 


> 之 之 


编译 后 生成 Regular Expression 对 象 ， 由 于 该 对 象 日 己 包 售 了 正则 表达 式 ， 所 以 调用 对 
应 的 方法 时 ， 不 用 给 出 正则 字符 串 。 


5.8 ”使 用 urllib 打开 网 页 


Python 的 webbrowser 模块 六 持 对 浏览 器 进行 一 些 操作 ， 主 要 有 三 种 方法 。 
代码 如 下 : 


import webbrowser 


webbrowser.open (url, new=0, autoraise=True) 
webbrowser.open new (url) 


webbrowser.open new tab (url) 


首先 了 解 webbrowser.open() 方 法 : 


webbrowser.open (url, new=0, autoraise=True) 


在 系统 的 默认 浏览 右 中 访问 url 地 址 ， 如 果 new=0，url 会 在 同一 个 浏览 器 窗口 中 打 
开 ; 如 果 new=1， 新 的 浏览 器 窗口 会 被 打开 ; new=2 时 新 的 浏览 器 tab 会 被 打开 。 而 
webbrowser.get() 方 法 可 以 获取 到 系统 浏 贤 副 的 操作 对 象 。 使 用 webbrowser.registerO 可 以 注 
册 浏 览 器 类 型 。 

例如 : 

din J 3 

import webbrowser 

url = http://www.i-nuc.com/iNUC/'" 


webbrowser.open (url) 


print (webbrowser.get()) 


这 样 吏 可 以 打开 一 个 网 站 页 面 ， 但 使 用 的 是 默认 耻 打开 的 ， 如 果 想 用 360 浏 贤 絮 打 
3 方法 如 下 : 

import webbrowser 

BrowserPath = r'C:\Users\yubg\AppData\Roaming\360se6\Application\360se.exe' 

webbrowser.register('360', None, 


webbrowser.BackgroundBrowser (BrowserpPpath),) 


webbrowser.get ('360') .open new tab('http://www.i-nuc.com/iNUC/") 


而 使 用 urllib 模块 打开 网 站 ， 忒 个 程序 只 需 用 两 行 代码 即 可 : 


i1mpPort urllib 
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print (urllib.request.urlopen('http://www.i-nuc.com/iNUC/') .read()) 

在 Python 2.x 版 本 中 可 以 直接 使 用 import urllib 来 进行 操作 ， 但 是 3.x 版 本 的 Python 
使 用 的 是 import urllib.request 来 进行 操作 。 

urlopen 方法 的 格式 : 


urllib.request .urlopen (urll[, datal, proxies]]) 


参数 url 表示 远程 数据 的 路 径 ， 一 般 是 网 址 ， 参 数 data 表示 以 post 方式 提交 到 url 的 


数据 (提交 数据 的 两 种 方式 为 post 与 get。 如 果 不 清 楚 ， 也 不 必 太 在 意 ， 一 般 情况 下 很 少 用 
到 这 个 参数 ); 参数 proxies 用 于 设置 代理 (这 里 不 详细 介绍 怎样 使 用 代理 ， 感 兴趣 的 读者 可 
以 去 翻阅 Python 手册 的 urllib 模块 )。 


urlopen 返回 一 个 类 文件 对 象 ， 它 提供 了 下 列 方 法 。 

@  *#read0、readlineO0、readlinesO0、filenoO0、close0: 这 些 方法 的 使 用 方式 与 文件 对 
象 完全 一 样 。 

@  *#info0: 返回 一 个 httplib.HTTPMessage 对 象 ， 表 示 远 程 服务 器 返回 的 头 信息 。 

@  *getcode(): 返回 HTTP 状态 码 。 如 果 是 HITP 请 求 ，200 表示 请 求 成 功 完 成 ; 
404 表示 网 址 未 找到 。 

@ *#geturl0: 返回 请 求 的 url。 

对 上 面 的 代码 进行 扩充 ， 可 以 运行 下 面 的 例子 ， 加 深 对 urllib 的 印象 : 

il1mport urllib 

print (urllib.request.urlopen ('http://www.i-nuc.com/iNUC/') .read()) 

inuc = urllib.request.urlopen('http://www.i-nuc,.com/iNUC/'") 

print http leAader Vn yy TNC iIntoly) 

print('http status:', inuc.getcode()) 

ELNnGe UE TINac HSturlry)) 

fOr TIne J Tne. # 就 像 在 操作 本 地 文件 


BrinttLliney 


i1nuc.closer) 


urlretrieve 方法 的 格式 : 


urllib.request.urlretrieve (url[, filename[, reporthook[, data]l]ll]) 


urlretrieve 方法 直接 将 远程 数据 下 载 到 本 地 。 参 数 filename 指定 了 保存 到 本 地 的 路 径 


(如 果 未 指定 该 参数 ，urllib 会 生成 一 个 临时 文件 来 保存 数据 ); 参数 reporthook 是 一 个 回调 
水 数 ， 当 连接 上 服务 器 ， 以 及 相应 的 数据 块 传输 完毕 的 时 候 ， 会 触 友 该 回调 。 可 以 利用 回 
调 函 数 来 显示 当前 的 下 载 进度 ， 和 下面 的 代码 将 会 展示 。 人 参数 data 指 post 到 服务 磊 的 数据 。 
该 方法 返回 一 个 包含 两 个 元 素 的 元 组 (filename，headers)，filename 表示 保存 到 本 地 的 路 
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径 ，header 表示 服务 器 的 啊 应 头 。 
下 面 通 过 例子 来 演示 这 个 方法 的 使 用 ， 本 例 将 “ 爱 中 北 ” 首 页 的 HTML 抓 取 到 本 地 ， 
保存 在 Di\i-nuc.html 文件 中 ， 同 时 显示 下 载 的 进度 。 程 序 如 下 : 


def cbk(a, b, c): 
回调 函数 
ea: 已 经 下 载 的 数据 块 
eb: 数据 块 的 大 小 
ec: 远程 文件 的 大 小 
per = 100.0 * a*b/e 
if Per > 100: 
Per = 100 
Print('%®.2f$%$" SS per) 
url = 'http://www.i-—nuc,.com' 
local = "dyinucs itm 


urllib.request .urlretrieve (url, local, cbk) 


运行 结果 如 图 5-10 所 示 。 


Im [1]: import urllib 
-= ef cbk(a, b, cy: 


回调 函数 
Ba: 已 经 下 载 的 数据 块 
@b: 数据 块 的 去 小 

和 @@c: 远程 记 件 的 太 小 


per = 188 
print( '%.2fX%%" % per) 
---: Url = http:/ /ww.1i-nuc.com 
.= local = "d:MWi=nuc.html' 
ss UFllib.request.urlretrieve(url, local, cbk) 
188 .88% 
Out[1]: ("d:\W\i-nuc.html’", <http.client.HTTPMessage at @xcf29918>) 


In [2]: 
图 5-10 ”运行 结果 
urllib 中 还 提供 了 一 些 辅助 方法 ， 用 于 对 url 进行 编码 、 解 码 。 
url 中 不 能 出 现 一 些 特 殊 的 符 写 ， 有 些 符号 有 特殊 的 用 途 。 我 们 知道 ， 以 get 方式 提交 
数据 的 时 候 ， 会 在 url 中 添加 key = value 这 样 的 字符 串 ， 所 以 在 value 中 不 允许 有 “=”， 
因此 要 对 其 进行 编码 ;与 此 同时 ， 服 务 器 接收 到 这 些 参 数 的 时 候 ， 要 进行 解码 ， 还 原 成 原 
始 的 数据 。 
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5.9 网 页 数据 抓 取 


这 里 给 出 用 Python 抓 取 一 个 网 站 跟 帖 回复 的 例子 。 
知 乎 网 上 有 一 个 标题 为 “已 经 有 女 朋 友 了 了， 但 又 遇 到 更 辟 欢 的 对 象 旦 么 从?” ”的 帖 
子 ， 里 面 的 一 些 回复 实在 很 摘 突 ， 但 是 一 页 一 页 地 看 义 有 氮 矿 烦 ， 于 是 想 全 部 “ 讨 ” 下 来 
存放 到 一 个 文件 里 ， 这 样 ， 就 可 以 随时 查看 到 全 部 的 回复 内 容 了 。 
本 节 主 要 使 用 Python 实现 简单 的 网 络 息 取 ， 以 获取 帖子 的 全 部 回复 。 
工具 : Anaconda 3。 
网 址 : https://www.zhihu.com/question/19649693。 
任务 : 将 图 5-11 中 框 起 来 的 部 分 息 下 来 ， 放 到 一 个 TXT 文件 中 。 
步 又: 利用 Python 的 BeautifulSoup 模块 ， 将 网 页 内 容 收 纳 到 容器 soup 中 ; 再 在 soup 
中 搜索 所 有 回复 的 标识 标签 ; 然后 将 搜索 出 的 内 容 遍 历 出 来 ; 最 后 建立 一 个 TXT 文件 ， 
并 将 授 历 结果 写 入 此 文件 中 。 
已 经 有 女 朋 友 了 ， 但 广远 到 更 豆 欢 的 对 象 怎 么 办 ?了 “ez 
但 蘑 人 出 现 后 ， 故 现 绸 比 你 现在 的 对 锭 漂亮 、 有 钱 、 温 柔 ,而且 是 经 过 相处 后 ， 涉 是 那 种 民有 轩 表 的 


当下 ,重点 号 这 个 对 短 网 邮 也 喜欢 你 . 
从 人 人 上 国 知 到 的 ,不知 所 你 们 运 到 了 会 怎 冯 去 做 . 


人 信和 糙 接 : blag_re comiblog/33. 
42 亲 评 论 分 享 " 洲 请 回答 
9366 小 回答 控 授 宗 排 序 : 
到 ” 医 名 用 户 
AU 


1 
一 和 证 Ri 站 证 在 El 
二 三 Me ti 中 | 二] 二 PF 


编辑 于 201407-07 中 355 条 评论 祥 感谢 沾 分 吾 D 监 蕊 - 没有 帮助 - 举 撒 - 禁止 转 堪 
。 ”蔬菜 ， 订 辐 呈 bocai zhu / 淘宝 " 臣 芝 五味 古 店主 醒 
本 a 人 人 1 了 -aq 
41 本 新 觉 田 纳 尔 到 ， 卡 所 特 过 有 症 和 地、 至 士 就 星 力 量 等 人 环 同 , 收录 于 刊 玫 周刊 


5-11 网 页 截图 


(1) 准备 工作 。 先 分 析 网 页 的 源 代码 ， 找 到 回复 的 标识 符 。 

在 网 页 界面 按 下 F12 键 ， 如 图 5-12 所 示 。 

单 击 界 面 上 的 B 处 (DOM 资源 管理 器 )， 再 单 击 C 处 (DOM 元 素 突出 显示 )， 当 把 鼠标 
放 到 D、E 区 域 时 ， 束 会 发 现 A 区 域 有 突出 高 亮 显示 。 下 面 的 D、E 区 域 的 每 一 个 div 标 
签 都 对 应 着 上 面 A 区 域 相 应 的 小 区 域 。 找 到 区 域 A 中 的 回复 和 下 面 区 域 D、E 相对 应 处 ， 
这 里 提取 DD 或 者 EE 均 可 ,不 过 E 比较 “干净 ”， 所 以 就 选取 EEE。 其 实 可 以 验证 ， 只 要 是 回 
复 部 分 的 内 容 ， 它 的 标签 都 是 class=“zm-editable-content clearfix”， 有 所 以 只 要 找到 它 的 共 
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性 ， 再 把 它们 全 部 找 出 来 即 可 ， 这 是 爬 取 的 关键 一 步 。 
已 经 有 女 朋 友 了 ， ? eam 14205 人 关 


我 绝对 不 是 鼓励 一 心 二 用 , 只 是 命运 很 奇妙 。 如 果 你 已 经 有 对 和 银 了 ， 在 某 人 还 没 出 现 前 都 十 分 —p ， 
美好 ， 但 某 人 出 现 后 ， 发 现 她 比 你 现在 的 对 杀 漂 亮 有 钱 、 温 荣 ， 而且 是 经过 相处 后 ， 趟 是 那 | 
种 只 有 外 表 的 和 幻想， 重点 是 这 个 对 象 刚好 也 高 欢 你 ， 

从 人 人 上 面 看 到 的 ， 不 知道 你 们 负 到 了 会 怎么 去 做 。 

人 人 和 链接 : blog.renren.comiblog/33.. 己 。x 修改 


es 2 A a 相关 问题 
42 条 评论 洛 分 享 。 道 请 回答 举报 
什么 是 爱 ? 
966 个 回答 控 投 票 排序 : 7581 个 加 
怀 珊 型 h 寺 最 
20K 。 员 体 、 晓 梦 ，Welkin 等 人 赞同 
交 朋 友 的 嘲 
二 目 圭 | | | ml [i Ee 
| i -| | | 
不 要 再 涂 了 久 六 遇 如 侣 i 上 x 腓 
编辑 于 2014-07-07 355 条 评论 看 谢 分 享 口 收藏 * 没有 帮助 。 举报 ， 禁止 转载 男女 交往 最 
。 蔬菜 ,订阅 号 -bocai_zhu / 淘宝 "落伍 五 味 店 "店主 篇 
3977 上 卡 斯 特 没 有 了 坪 壮 、 芝 十 总 时 力量 等 人 如 同 :收录 于 知 乎 周 下 | 问题 状态 
下 发文。 sp 最 折 活 动 于 
非 靠 谱 观 点 B — 走 浏 览 157 
DOM 资源 管理 器 oi [三 ) 调试 程序 呈 三 洒 
呈 加 ” 
< 瑟 Nanme=" NSWer- ybu3y3” class=" ZE-anchor-hidden™ ></a> 
: b <div class="zm-Vvotebar"y /divy 
bb <div class="anNnswer-head" >».</div> 
人 <*O1Y Class="7ZH-item-rich-text expandable j=-c0llapse-body" data-entry-url="/que 


SE data-action="/answer/content™” data-resourceid 


br /> 
不 要 再 叭 了 . . . 必 勾 咕 (”-， 9) 
< divy 
<fdivy 
< Mame="36683903-coment”" class="ze-anchor-hidden ac"y</ay 
b <div class="Z0-item-meta answer-actions clearfix js-contenthctions"y </divy> 


WA 
三 几时 
4 div.zu-main-con.., div#zh-cuestion,. div.zm-item-ans.,. div.zm-item-=rich... 


图 5-12 ”网 页 源 代码 截图 


(2) 在 Python 中 建立 TXT 文件 保存 有 息 取 的 内 容 ， 并 将 网 页 源 代 码 全 部 收纳 入 soup。 
GD 在 Anaconda3 中 打开 Spyder， 导 入 相关 的 模块 和 库 : 


#encoding:UTF-8 
import urllib.request # 在 Python 3.x 中 使 用 urllib.request 蔡 代 了 urllib2 
from bs4 import BeautifulSoup #BeautifulSoup 库 最 主要 的 功能 是 从 网 页 抓 取 数据 


@， 建立 一 个 pachong.txt 文件 ， 并 人 允许 追加 写 入 : 
f = openl('pachong.txt', 'at+',encoding='utf-8") 


其 中 的 “at+” 表 示 在 文件 末尾 退 加 文件 encoding=“utf-8” 表 示 在 写 入 时 以 utf-8 编码 
格式 写 入 ， 这 里 最 好 带 上 ， 否 则 打开 pachong.txt 时 会 是 乱码 的 。 


dv.zm-editable-=... 
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(3) 打开 链接 网 页 并 扑 取 网 页 数据 : 


url="https://www.zhihu.com/question/19649693" # 需 要 打开 的 网 址 
html=urlljib.reaquest .urlopen (url) .read ( ) # 读 取 网 页 数据 

Soup = BeautijfulSoup (html, "lxml") # 将 网 页 数据 纳入 SOUP 中 
#print (soup .Prettify()) # 打 印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正常 。 此 名 可 以 省 略 
tl Sou Elind alLLlIolans 2m Sdrtable content Cleartliy LEM Ee=3) 
ALL=str (all) .split('</div>') 


all 行 代码 : 在 soup 中 查找 标签 中 的 class=“zm-editable-content clearfix”*， 由 于 class 在 


Python 中 是 保留 名 ， 所 以 class 改写 成 class ， 即 class “zm-editable-content clearfix”; 
limit 表示 限制 输出 的 数量 ，limit=3 表示 只 输出 前 三 个 回复 ， 该 参数 也 可 以 忽略 。 


ALL 行 代码 : 是 将 all 中 的 所 有 内 容 转 化 为 字符 型 str(alD)， 并 将 其 内 容 (回复 ) 分 割 开 


来 ， 这 里 使 用 了 字符 串 分 割 方法 split， 分 隔 符 为 “</div>’。 


将 ALL 中 的 内 容 逐 一 提取 出 来 ， 并 写 入 pachong.txt 文件 中 : 


for each lin ALLDL : 


f.write (each+'"'\n') 


第 二 行 中 使 用 了 “mnm*， 目 的 是 想 每 写 完 一 个 回复 就 男 起 一 行 ， 即 每 条 回复 男 起 一 行 。 
回 ”关闭 pachong.txt 文件 ， 怜 虫 结 束 : 


ft.clLosel) 


这 里 必须 关闭 文 件 ， 否 则 会 继续 占用 系统 资源。 所 以 每 打开 一 次 文件 ， 务 必 记 住 用 完 


后 关闭 该 文件 ， 养 成 民 好 的 编写 代码 习惯 。 


至 此 ， 疏 取 的 工作 基本 结束 ， 找 到 并 打开 pachong.txt 文件 ， 验 证 是 否 已 经 息 取 了 想 要 


的 内 容 。 文 件 的 具体 保存 路 径 可 以 在 Spyder 上 看 到 ， 如 图 5-13 所 示 。 


委 Spyder IPython 3.9 二 口 2 
Fie Edt gSearch Source Run Debug Conscles Tools Wiew Help 
网 量 ” 上 | 国 。 是 。 dy i | 2 比 El 攻 | 区 沪 正明 a hb | Csersumballomments"Fython Srripts 中 间 
Editor — C:"\Vsers be Doements Python Boripts\umtitledd. py Fx Dbhjiert Lg 5 
TY umtitled3. py (Ee) i ntitledd. pu | i mtitleds. pw | Im antitled.pv 回 4 月 3) So “| 加 医 
5 商 


3 Created on sat May 14 63:16:53 2616 i 

当前 文件 保存 路 径 

i F* YUbB 一 -| 四 一 ~ 让 从 11L cre you can Eet help of any object by pressine 如 trhrl 

6 in front of it, einer on the Editor or the Console. 

可 

日 

Eimport urllib. redquest 加 


ro bs4 import Beautiftulsoup Dbiarct 1nspector Variable expl orer File expl orer 
11 ri ED nachna 二 中 


图 5-13 ”Spyder 保存 路 径 
本 疏 虫 的 完整 代码 如 下 : 


#encoding:UTF-8 
import urllib.regquest 


from bs4 import BeautifulSoup 


£f = openl('pachong.txt', 'a+',encoding='utf-8") 
url="https://www.zhihu.com/question/19649693"  # 和 需要 打开 的 网 址 
html=urllib.request.urlopen (url) .read() # 读 取 网 页 数据 
soup = BeautifulSoup (html,， "lxml") # 将 网 页 数据 纳入 soup 中 
#print (soup.prettify()) #4 打印 格式 ， 此 步 可 通过 打印 以 监控 是 否 正 当 
all = soup.find alliclass ="zm-editable-content clearfix", limit=3) 
ALL=str (all) .split('</diwv>") 
for each in ALL 

f .write (each+"' An ' ) 
f.close() 


运行 结果 如 图 5-14 所 示 。 


司 pachong.txt - 记事 志 一 口 we 
训 件 (中 蝙 辐 人 E) 梧 坟 IO】 本 看 (W) 帮助 (H) 
‘dis class= zm-editable-content clearftix > 


起 一 句 话 ， 不 要 相信 在 野党 ， 执 政之 后 都 一 ee 
i TT 


LF class= “zm-edi table=content clearfix”» 


Pe ht | 说 下 协 攻 
入 这 闭 测 同性 hh a 
克昌 认 关 和 要 上 局 对 从 
和 最 青 旧 志 只 zh 人 te 
ee 0 
i 
有 ， 个 如 虹 是 未 生 的 i 全 情 咎 ， 扩 下 外 是 = 
的 
rh 


5-14 ”有 谎 取 的 数据 截图 


当然 ， 这 样 还 不 够 美观 ， 还 需要 继续 加 工人 代码 。 比 如 每 次 获取 的 文本 想 要 知道 具体 的 
时 间 ， 还 想 看 到 这 个 帖子 的 标题 ， 并 将 所 有 回复 按 条 整理 好 ， 如 图 5-15 所 示 。 


| 亨 件 昌黎 缉 旧 局 二 io) a 本 


上 下 全 i 昧 引 果 你 已 经 有 对 象 了 ， 在 革 人 和 还 没 出 现 前 者 十 分 
全 a ed 下 小 和 


起 ' 重点 通 会 怎 a 
和 13 ， 
Te es 加 
人 当 咎 3 i 


5 a 工 工 I 和 介 准 几 卉 思 i 二 
人 他 /让 注 详 el 人 EE 下 何人 I Be a 
言 的 于 入 起 或 各 东沙 为 3 委 人 人 桂 。 <bzv ><bg/ 后 其 愉 各 相 介 分 - 系 


种 两 


图 5-15 ”整理 后 的 数据 截图 
修改 后 的 完整 代码 如 下 : 


import urllib.regquest 
from bs4 import BeautifulSoup 


Mm tme 
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print ("***\n***\n***\n 这 是 一 个 息 虫 ， 正 在 息 取 知 乎 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。") 
f = openl(l'pachong.txt', 'at+',encoding='utf-8") 

end time=time .strftime!{' $Y-%Em-%d SH: SM:TS ,time.1localtime (time.time ())) 

f.write(" 【时间 : "+end time+"】\n【 标 题 ] 己 经 有 女 朋 友 了 ,但 义 过 到 更 脱 欢 的 对 象 怎 么 
办 ? NAn【 摘 述 】 我 绝对 不 是 辟 励 一 心 二 用 ， 只 是 合 运 很 奇妙 。 如 果 你 已 经 有 对 象 了 ， 在 茶 人 还 设 出 
现 前 都 十 分 美好 ， 但 某 人 出 现 后 ， 发 现 她 比 你 现在 的 对 象 漂 亮 、 有 钱 、 温 柔 ， 而 且 是 经 过 相处 后 ， 

不 是 那 种 只 有 外 表 的 幻想 ， 重 点 是 这 个 对 象 刚 好 也 喜欢 你 。 从 人 人 上 面 看 到 的 ， 不 知道 你 们 遇 到 了 
会 在 么 去 做 。"+"'\n') 


url="https://www.zhihu.com/question/19649693" 
html=urllib.regquest .urlopen (url) .read ( ) 


SOUup = BeautijfulSoup (html, "lxml") 
#print (soup.prettify!()) # 打 印 格 式 ， 本 行 可 以 忽略 


El La wo Le oben ben ll pL 3 
ALL=str (all) .split('</div>') 
i=0 
for each in ALL : 
a 


f.write("【 回 复 '+str{(i)+'】: '+each+'\n') 
f.closel() 


print ("**x*\n***\n***\n 菩 育 你 ， 已 经 完成 任务 ， 请 你 打开 文件 : pachong .txt 查阅 ") 


end_time 行 代 人 码 调 用 的 古本 地 当前 时 间 。 执 行程 友 结 束 后 ， 屏 各 上 显示 的 情况 如 图 5-16 
所 示 ， 下 载 内 容 保 存在 pachong.txt 中 。 


Im [1]: import urllib.request 
.0 From bs import Beautifulsoup 
.= import time 
: print("***#\n+**\n*+*#*\n 议 是 一 个 肛 虫 ; 正在 虑 取 知 于 网 上 的 一 个 内 容 ， 请 耐心 等 息 : 。。 。") 
.> ff = open(t" pachong.txt", ar ,encoding="utf-8") 
.= end time=time.strftimel  %Y-%m-%d XH:M:%5" ,time. localtime(time.time())) 
.--x 于 -writef 工时 间 : "+end time+" vvn 工 标题 了 已 经 有 玄 朋 友 了 ， 查 灵 遇 到 更 喜 驳 的 对 和 象 洛 之 办 和 nm 工 描 壕 了 
我 多 对 和 不 是 喜 励 一 心 二 用 :， 只 是 曾 运 很 音 妙 。 如 果 你 已 经 有 对 得 了 ， 在 某 上 还 出 现 前 都 十 分 美好 ， 介 某 具 出现 后 : 败 现 
她 比 你 现在 的 对 象 漂 有 琶 、 有 钱 、 汤 杀 ， 而 且 是 经 过 相处 后 ， 趟 是 那 种 只 有 外 表 的 引起 ， 重 点 是 这 个 对 象 刚 好 也 喜 鸡 您 。 从 
信人 上面 看 到 的 : 不 知道 你 们 远 到 了 会 在 又 去 做。 "+" "Am ) 
: Url="https:/ /we. zhihyu.com/question/19649693" 
3 html-urllib,.request.urlopen(turl}.read() 
.0 SOUp = Beautifulsoup(html, "lxml™) 
= #print(soup.prettify() #2 HR a 
.: al1l] = soup.find all(class ="zm-editable-content clearfix"”,]1imit=3) 
: ALL=str(all).split('</div>") 
.= = 
-2 For each in ALL : 
卫 十 一 卫 
于 -writef 【回复 "+str(tiY+"]】: “+each+" An 1 


.2 fF.close() 


.print("*+\nte+\n++e\n 燕 走 你 ,已 经 完成 任务 , 请 你 打开 文件 : pachong.txt 查 阅 ") 
这 是 一 个 肥 虫 ， 正 在 孢 取 知 手 网 上 的 一 个 内 容 ， 请 耐心 等 候 : 。。。 


宁 宰 宣 


茶 喜 你 ， 已 经 完成 任务 ， 请 你 打开 交 件 : pachong-txt 查 阅 


Im [2]: 


图 5-16 程序 运行 截图 


5.10 读 取 文档 


在 很 多 时 候 ， 我 们 需要 读 取 网 上 PDF 文档 .pdf 里 和 Word 文档 .docx 里 的 文本 (字符 
串 )， 这 时 我 们 就 需要 下 载 后 再 打开 查阅 。 是 否 可 以 不 下 载 而 直接 查阅 其 文档 内 的 文本 呢 ? 
方法 是 有 的 ，Python 就 擅长 此 项 工作 。 


1. PDF 文件 


目前 很 多 PDF 解析 库 都 是 用 Python 2.x 版 本 建立 的 ， 还 没有 迁移 到 Python 3.x 有 版本。 
但 是 ， 因 为 PDF 比较 简单 ， 而 且 是 开源 的 文档 格式 ， 所 以 有 一 些 给 力 的 Python 库 可 以 读 
取 PDF 文件 ， 而 且 文 持 Python 3.x 版 本 。 

PDFMiner3K 就 是 一 个 非常 好 用 的 库 ( 是 PDFMiner 的 Python 3.x 移植 版 )。 它 非常 灵 
活 ， 可 以 通过 命令 行使 用 ， 也 可 以 整合 到 代码 中 。 还 可 以 处 理 不 同 的 语言 编 龟 ， 而 且 对 网 
络 文件 的 处 理 也 非常 方便 。 

在 https://pypi.python.org/pypi/pdfminer3k 了 网址 可 以 下 载 这 个 模块 的 源 文 件 ， 解 压 并 用 
下 面 的 命令 安装 : 


spython setup.py install 


下 面 的 例子 可 以 把 任意 的 PDF 读 成 字符 串 ， 然 后 用 StringIO 转换 成 文件 对 象 : 


from pdfminer.pdfinterp import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from 1 lmport StringIo 
from urllib.request import urlopen 
def readPDF (pdfFile): 
rsrcmgr = PDFResourceManager {) 
retstr = StringIod!) 
laparams = LAParams {) 


device = TextConverter (rsrcmgr, retstr, laparams=laparams) 


process pdf {rsrcmgr, device, pdfFile) 


devlice.closerl) 


content = FetestIrie getvalLuel) 
retstr.close'!() 


return content 


pdfFile = 
urlopen ("http://pythonscraping.com/pages/warandpeace/chapterl .pdf") 
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outputSstring = readPDF (pdfFile) 
print (outputSstring) 
pdfFile.close!{() 


readPDF 函数 的 最 大 好 处 是 ， 如 斥 你 的 PDF 文件 在 电脑 里 ， 你 就 可 以 直接 把 urlopen 


返回 的 对 象 pdfFile 蔡 换 成 普通 的 openO 文 件 对 象 : 


pdfFile = open("d:\11 .pdf", rb"') 


输出 结果 可 能 不 是 很 完美 ， 尤 其 是 当 PDF 里 有 图 片 、 各 式 各 样 的 文本 格式 ， 或 者 带 有 


表格 的 数据 图 时 。 但 是 ， 对 大 多 数 的 纯 文本 文档 的 PDF 而 言 ， 其 输出 结 采 还 是 可 以 的 。 


对 于 网 络 或 者 本 地 PDF 文档 的 读 取 ， 可 以 合 二 为 一 ， 对 上 面 的 代码 稍 加 修改 即 可 : 


ll 

from pdfminer.pdfinterp import PDFResourceManager,;, process pdf 
from pdfminer.converter ijmport TextConverter 

from pdfminer.layout jmport LAParams 

from 1D import StringIoO 


from urllib.request import urlopen 


def readPDF (pdfFile): 
rsrcmgr = PDFResourceManager{) 
retstr = StringIoO!() 
laparams = LAParams () 


device = TextConverter(rsrcmgr, retstr, laparams=laparams) 


PIOoOCeSSs PAF(ILISICMIT, device, PdfprIiTe) 


device.close!l) 


content = retstr.getvalue{) 
retstr.closerl) 


return content 


path = input(' 请 输入 你 要 查询 的 具体 的 网 址 或 路 径 。 如 :; c:\\11.pdf): ') 
Ter Tr vat 
pdfFile = urlopen (path) :+# 了 网 上 搜索 
else: 
pdfFile = open (path, 'rb') # 本 地 机 器 搜索 
outputString = readPDF (pdfFile) 


Print (outputSstring) 
PdfFile.close!{) 


以 上 是 在 知道 具体 文件 名 及 路 径 时 ， 可 以 打开 PDF 文件 并 获取 其 中 的 文本 或 者 字符 


串 ， 但 这 并 疫 有 什么 太 大 的 实际 是 义 。 如 朱 按 给 定 的 关键 词 在 本 地 指定 的 路 径 (文件 夹 ) 下 


>| 
| | 人 | 
a | 


查找 所 有 的 PDF， 并 将 找到 的 文件 给 出 列表 ， 那 将 有 很 强 的 实际 意义 。 下 面 的 代码 则 实现 
了 这 个 功能 : 


i ea 


Lm | 


Python 3 需要 下 载 安 闭 pdfminer3k 


from pdfminer.pdfinterp import PDFResourceManager, process pdf 
from pdfminer.converter import TextConverter 
from pdfminer.layout import LAParams 
from io import StringIod 
limport Cs 
def PdfRead (path)}): 
content="" 
with open (path, 'rb') as pdfFile: 
rsrcmgr = PDFEFResourceManager () 
retstr = StringIO!() 
laparams = LAParams () 
device = TextConverter (rsrcmgr, retstr, laparams=laparams) 
process pdf (rsrcmgr, device, pdfFile) 
device.close!() 
content = retstr.getvalue{() 
retstr.closer() 
return content 
def find keyvy(path, key): 
FOr TE TI On Walk(pathl: 
a jo ee I I a EN eid | 
= find( Pa” 
if (il1!=-1 and il1==len(Jj)-4): 
SE=—1190) rerlacel Yo Tn) 
在 顽 3 
if EdftReaaQ(PP+' /7 +]) .Ena(Kkev) !=-1: 
Printlept /+]) 
excCept Exception as e: 
with oPent(teurt err Jodg'r "a Hg Orr: 
err.write (strt{te)+'\n') 
Em 
find keyl{lr'C:\Users\yubg\Documents\Python Scripts', 'Best seats in the 


house') 


上 述 代 码 在 CNUsersvyubg\Documents\Python Scripts 下 搜索 包含 有 关键 词句 “Best seats 
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in the house” 的 PDF 文件 。 搜 索 结 果 旺 示 找 到 了 一 条 记录 C:/Users/yubg/Documents/Python 
Scripts/A.pdf。 如 下 所 示 : 


runfile('C:/Users/vyubg/Desktop/pdf.py', wdir='C:/Users/yubg/Desktop') 
WARNING:pdfminer.layout:Too many boxes (109) to group, skipping. 
C:/Users/yubg/Documents/Python Scripts/A.pdf 


2。 Word 的 .docx 文件 


大 约 在 2008 年 以 前 ， 微 软 Office 产品 中 Word 使 用 .doc 文件 格式 。 这 种 二 进 制 格式 很 
难 读 取 ， 而 且 能 够 读 取 Word 格式 的 软件 很 少 。 为 了 跟 上 时 代 ， 让 自己 的 软件 能 够 符合 主 
流 软 件 的 标准 ， 微 软 决 定 使 用 Open Office 的 类 XML 格式 标准 ， 此 后 新 版 Word 文件 才 与 
其 他 文字 处 理 软 件 菩 容 ， 这 个 格式 束 是 .docx。 

现在 有 Word 文档 http://pythonscraping.com/pags/AWordDocument.docx， 我 们 读 取 其 文 


档 内 容 : 


From 21Etile TIMEoOrt ZiEEELS 

Eo Urllib request Imort Urliopen 

from io import BytesIO 

import re 

wordFile = urlopen("http://pythonscraping.com/pages/AWordDocument .docx") .readl{) 
#wordFile = urlopen ("file:///C:/Users/yubg/Desktop/2.docx") .read!{) 
wordFile = BytesIO0O (wordFile) 

document = ZipFile (wordFile) 

xml] content = document.read!('word/document .xml') 


ss=Te EINndalllr wt>( /wt>' Xm content decodeal( ut 8")) 
fer 1 in Ss: 


DELTnNt (1) 


# 获 取 内 容 如 下 : 

A Word Document on a Website 

This is a Word document, full of content that You want very much. 
Unfortunately, IC SS difficult to access because I’'m putting it on my 
website as a. 

docx 


为 了 便于 在 本 地 机 右上 通过 给 出 关键 词 和 指定 的 路 径 ( 文 件 夹 ) 即 可 搜索 出 该 文件 夹 下 
所 有 包含 要 吾 找 内 容 的 .docx 文档 ， 并 把 含有 搜索 内 容 的 文件 列 出 ， 这 里 给 出 实现 此 功能 
的 具体 代码 : 


人 


import os 


from win32com import client as wc 


CUIr=oS .getcwd()}+" /temp' 
if not os.path.exists (cur): 


Os .mkdir (cur) 


def DocRead (file): 
doc=wCc .Dispatch('Word.Application') .Documents.Open (file) 
doc.SaveAs (cur+'/txt"',4) 
doc.Close!() 
txt="" 
with opentourt'/ txt txt "PY as 
txt=f .read {() 
os .remove (curt+' /txt .txt") 


return txt 


def research (path, key): 


Li | 


本 代码 的 功能 : 
主要 用 于 某 文件 夹 下 搜索 Wora 文件 内 的 内 容 。 
如 想 搜 索 关 键 词 为 “大 数据 分 析 报 告 的 主要 内 容 如 下 : ”这 个 片段 
n=0 
for i in os.walk (path): 
Fo | a | 
=] Find(t doe 9 
T= EN do | 
if {ili=-1 and il==len(]J})-4) or (i2!=-1] and 1L2==]Len(]) 一 2) : 
Ep | 
# print (pp+'/ "+j) 
ee 
if DocRead (ppt+"'/ "+j}) .find (kev) !=-—1: 
print (pp+'/'+]j) 
也 十 三 二 
except Exception as e: 
with open (curti+' /err.]ogq','a') as err: 
err.write (str{(e)+'‘\n') 
Tf TO 7 
print(' 没 有 找到 你 要 的 内 容 ! ') 
else: 
Print(7 找 到 sd 条 内 容 ' sn) 


def maint()}): 


wn》 Python 数据 分 析 基 而 


EE 


path=input (' 输 入 查找 根 路 径 (如 : F:\): ') 
key=input (' 输 入 查询 关键 字 : ') 


research (path, key) 


name ==" main ee. 


maint) 


在 本 地 机 中 ，Ci\Users\yubg\OneDrive\other 下 有 某 个 文件 中 含有 “中 北大 学 单位 内 各 
部 门 的 办 公文 档 、 卷 宗 、 图 片 、 视 频 等 数据 ”的 关键 词句 。 执 行 上 面 的 程序 ， 输 入 查找 路 
径 和 关键 词句 ， 查 询 结果 如 图 5-17 所 示 。 


屋 LE console l/h EE | 


Python 3.5.1 |Anaconda 2.4.1 (32-bit)| (default, Dec 7 2815, 14:57:35) [MSC 站 
V.1966 32 bit (Intel)] 
Type “copyright”, “credits™” or “license™” for more information. 


en 4.8.1 -- An enhanced Interactive Python. 
-> Introduction and overview of IPython s features. 
eT -> Quick reference. 


help -> Python s own help system. 

object? -> Details about object , use object?? for extra detaills. 
NEUiref -> A brief reference about the graphical user interface. 

Im [11: 


runfile('C:/Users/yubeg/AppData/Local/Proegrams/Python/Python35-32/untitled24.py ', 
wdir="C:/Users/yubg/AppData/Local/Programs/Python/Python35-32°") 


输入 查找 根 路 径 如: F:\) : C:\Users\yube\OneDrive\other 
输入 查 词 关键 字 : 中 北 坟 学 单位 内 各 部 | 的 办 公立 档 、 准 示 、 图片、 视频 等 数据 
C:VUsersy/yyubg/OoneDriveAothery 中 北 六 学 入 能 突 全 一 体 作 云 存 人 铺 解 决 方案 .docx 
找到 1 条 内 容 


Im [2|: 


图 5-17 ”查询 结果 


本 章 主要 学 习 了 对 文件 的 读 取 和 存储 ， 以 及 如 何 使 用 with 语句 ;要 求 掌握 计算 精度 的 
处 理 方法 ， 以 及 正则 表达 陈 的 使 用 ， 并 对 矩阵 的 基本 运算 有 上 所 了 解 。 


(1) 
(2) 


练 > 


求 矩 阵 A 的 伴随 和 矩阵。 AA*=|A|I[，A=np.mat([[1,2,3],[4,5,6],[7,8,9]]). 
判断 RE 字符 串 是 否 全 部 为 小 写 。RE=‘Alphabet3”， 


(3) 写 一 个 以 正则 表达 式 匹 配 IP 地 址 的 代码 。 

(4) 简单 的 网 络 爬 虫 。 要 求 获 取 页 面 http://t.cn/RVVe68d 中 的 省 市 名 称 、 作 物 名 称 和 
面积 这 三 个 值 ， 并 打印 出 来 。( 在 项 目 中 ， 需 要 使 用 beautifulsoup4， 所 以 要 首先 安装 
beautifulsoup4， 并 且 疏 取 网 页 的 时 候 使 用 requests 模块 ) 
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